본문 바로가기
etc

[Hadoop] - 아파치 하둡 입문(1)

by saltyzun 2021. 1. 28.

최근 T아카데미에서 빅데이터 관련 핵심 기술 중 하나인 하둡에 대한 강의를 수강했다. 아래는 강의 중 홍태희 강사님이 설명해주신 내용과 업로드 해주신 강의슬라이드 내용을 나름대로 요약한 글이다. 강의는 그야말로 갓이었다... 좋은 강의를 제공해주신 강사님과 T아카데미 정말 감사합니다!


Chapter 1. 하둡의 탄생과 하둡 생태계(Hadoop echo system)


1.1. 왜 하둡인가?

   ▷ 데이터 홍수의 시대 : 하둡은 비정형 데이터를 포함한 빅데이터를 다루는 가장 적절한 플랫폼

 

   ▷ 하둡 엔지니어 : 수요는 증가하고 있고 공급은 부족하다

      - 데이터 증가로 하둡을 적용하는 회사 급증

      - 하둡은 SW Platform 이지만 SW만 안다고 해서 잘하기 힘들고. 인프라 환경과 같은 Technical Architect 지식도 갖춰야 함

      - 하둡 생태계는 Governance, Finance, Banking, Insurance, Healthcare 등 사회 전반에 걸친 모든 요소들과 밀접하게 연관


1.2. 하둡의 탄생 및 진화

   ▷ 하둡의 창시자 : 더그 커팅(Doug Cutting)

      - 검색엔진에 탑재되는 핵심기술인 인덱싱 라이브러리 Lucene을 오픈소스로 공개

      - 자식 프로젝트 Nutch를 탄생시킴(웹 검색엔진 프로젝트)

      - 이후 다시 자식으로 Hadoop 프로젝트를 탄생시킴(빅데이터 처리 프로젝트)

 

   ▷ 하둡의 근간 : 2003년 Google이 발표한 GFS(Google File System)

      - HDFS(Hadoop Distributed File System)은 구글이 발표한 GFS(Google File System)를 코드로 구현한 아파치 프로젝트임

분산데이터베이스가 중요한 이유
공유 스토리지 연산 수행 시 Computing resource가 늘어나면 어느정도 수준까지는 성능이 증가하지만 일정 수준 이상이 되면 Disk I/O에 Bottle neck이 생기면서 성능이 되려 감소하게 됨. 이를 해결하기 위해서 분산된 Node에 데이터를 저장하는 분산데이터베이스 기술이 등장함.

 

   ▷ 하둡 생태계의 진화 : 이제는 빅데이터를 저장하기 위해 큰 비용이 들지 않게 됐고, 처리가 용이해짐

      - 하둡은 2007년 탄생 이후 ver 3.x 버전까지 개발된 매우 성숙한 기술임

      - 하둡의 발전과 함께 생태계도 함께 진화하여 현재는 HBase, Pig, Zookeeper, Hive, Sqoop 등 다양한 기술들이 하둡생태계를 이룸.

 

하둡 생태계의 진화 (출처: T아카데미 아파치 하둡 입문 강의자료)

 

   ▷ 하둡이 변화시킨 흐름 : 이제는 빅데이터를 저장하기 위해 큰 비용이 들지 않게 됐고, 처리가 용이해짐

      - 많은 기업에서 오픈소스 빅데이터 플랫폼 도입 → 기존 솔루션 벤더들의 입지 축소(ex. Oracle, IBM, HP)

      - 데이터로부터 새로운 Insight와 Business 기회를 찾기 위한 노력과 함께 시장이 확대됨


1.3. DT와 AI의 시대

   ▷ 환경의 변화 : 데이터의 폭발적 증가! 기회는 데이터에 있다.

      - 컴퓨터의 모래알화(작다, 싸다) & 통신의 공기화(어디서나, 싸다)

      - 기록되지 않던 일상생활이 데이터로 남기 시작했고, IoT의 핵심 중 하나인 수많은 센서들이 수많은 데이터를 뿜어냄

      - 하둡과 같은 빅데이터 플랫폼 기술이 발전하면서 데이터 저장/분석의 가격 경쟁력이 확보됨

      - 따라서, 데이터 분석 역량이 새로운 가치를 창출하는 기회를 만들어 내는 시대가 됨

      - 마윈 "세상은 IT시대서 DT시대로 옮겨가고 있다."

※ 새로운 시대의 핵심 기술 (* 강의슬라이드 이미지의 내용 약간 변경 *)
1. 데이터가 나오지 않던 곳에서 데이터를 나오게 하는 IoT
2. 어디서 발생하는 데이터라도 쉽게 전송할 수 있는 자유롭고 빠른 통신
3. 그렇게 발생한 많은 데이터를 저장하고 처리할 수 있는 충분한 클라우드
4. 쌓여서 거대해진 데이터에서 숨은 패턴을 찾아내는 데이터 분석
5. 지능을 모사해서 데이터 분석의 능력과 수준을 끌어올리기 위한 인공지능
6. '지금 사용자가 원하는 데이터'를 생활에 바로 적용하기 위한 IoT

 

   ▷ 넘치는 데이터를 관리하는 방법 : AI/Machine Learning 과 Data Science

      - Machine Learning : 똑똑한 기계를 만들어 기회를 찾자(생각의 아웃소싱)

      - 많은 회사들이 머신러닝에 집중하고 있고, 데이터 분석 환경을 구축함

      - Data Scientist : 데이터에서(프로그래머) + 패턴을 찾아내어(통계학자) + 비즈니스 기회로(컨설턴트)

데이터 분석 환경 (출처: T아카데미 아파치 하둡 입문 강의자료)

 

반응형

댓글