빅데이터 전문가의 하둡 관리
샘 R. 알라파티 지음, 안진섭 옮김 / 성안당 / 2018년 11월
평점 :
품절


빅데이터 전문가의 하둡 관리

 

우리 생활과 밀접한 관계가 있는 컴퓨터를 작동할 때 마다 로그인, 온라인상의 클릭, 소셜미디어, 날씨, 다양한 센서 데이터, 이메일 등 다양한 곳에서 방대한 데이터가 생성된다. 데이터가 모이면 정보가 되고, 정보가 모이면 지식이 되고, 지식이 네트워크를 형성하면 지혜가 된다. 데이터가 쌓이면 돈이 되고, 앞으로 시대를 예측할 수 있다.

 

 매일 생성되는 정형 또는 비정형 데이터가 무한정 쌓여 빅데이터를 형성한다. 데이터를 자유롭게 분석하고 필요한 정보를 얻기가 어렵다. 그러나 하둡은 여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이다. 하둡은 엄청난 데이터세트를 다루기 위해 설계되었다.

 

이 책은 크게 521장으로 구성돼 있다. 1부에서는 하둡의 아키텍처와 하둡 클러스터를, 2부에서는 하둡 애플리케이션 프레임워크, 3부에서는 하둡 데이터 관리 및 보호 그리고 고가용성, 4부에서는 데이터 이동, 리소스 할당, 잡 스케줄링 그리고 보안, 5부에서는 모니터링, 최적화 그리고 문제 해결 등을 다룬다 

하둡의 특징은 대용량 데이터 처리 능력, 장애 허용, 높은 장애 대응력, 데이터의 스트리밍 액세스, 간단한 데이터 일관성 모델 등으로 빅데이터 분석 분야에서 독보적인 플랫폼을 형성하고 있다.

 

하둡의 생태계는 방대한 양의 데이터를 처리하는 플랫폼이다. 원도우 운영체제에서 실행할 수 있지만, 리눅스에서 운영된다. 기업이 자신들의 데이터를 처리하는 방식을 자신의 제품에 맞게 바꾸는 데에 많은 역할을 한다. 광범위하게 컴퓨터 사용을 가능하게 해주고 확장할 수 있는 오픈 소스 소프트웨어이다. 하둡 시스템의 핵심은 데이터 스토리지를 담당하는 HDFS(하둡 분산 파일 시스템)와 저장된 데이터를 프로세싱하는 얀(YARN)이 있다.

 

하둡에 저장돼 있는 많은 양의 데이터를 사용자가 원하는 방식으로 처리할 수 있도록 해주고 그 데이터로 인하여 사업적인 안목과 통찰력을 갖고 예측을 할 수 있다. 비즈니스 전략을 효과적으로 만들어 기업의 이익을 창출하기 위해 거대한 데이터 처리에 적합한 프로그램이 하둡이다.

 

빅데이터 활용은 고객의 구매 이력 정보와 위치기반 서비스(GPS) 등을 결합하여 맛집이나 숙박 등을 소비자가 원하는 정보를 제공해준다. 각 지방자치단체에서 관광객을 많이 방문할 수 있는 방안을 강구하고 있다. 그 지역에서 어떤 관광지에 관광객이 많이 방문을 하고, 체류시간이나 계절별 관광객 추이를 비정형 데이터를 만들어 관광객이 어떤 경우에 많이 오고, 체류시간 등의 빅데이터가 생성이 되면 이를 바탕으로 새로운 관광 계획을 수립하여 관광자원화 할 수 있다.  


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo