Head First Data Analysis 헤드 퍼스트 데이터 분석 - 하둡을 이용한 SQL 기반 빅데이터 분석 도구 Head First 시리즈
마이클 밀튼 지음, 김경태 옮김 / 한빛미디어 / 2013년 4월
평점 :
장바구니담기


 점점 사회가 정보화가 진행되고, 정보의 공개 공유가 많아지면서 사용할 수 있는 데이터의 양은 폭발적으로 증가하고 있습니다.

 이제는 데이터가 없거나 충분하지 못해 문제가 생기는 경우보다 어떠한 데이터를, 어떻게 사용해야 할지에 대한 고민이 커지는 것 같습니다. 이러한 시점에 데이터 분석에 대한 기본을 배울 수 있지 않을까 하는 기대로 책을 읽기 시작했는데 결과 부터 말하자면 만족할 만한 결과를 얻을 수 있었습니다.

 

 1장 입문에서  가상의 Acme 화장품 회사의 데이터를 이용해 매출의 시장 목표치를 넘어 서는 방안을 도출 함으로서 데이터 분석이 효과를 거둔 것 같아 보이게 하지만 바로 2장에서는 관찰한 데이터, 기존의 데이터가 아닌 실험을 통해 얻은 데이터로 문제를 해결하는 것을 보여줌으로서 데이터 분석 작업이 기존 데이터의 분석하는 것에 그치는 것이 않음을 알려 주고 있습니다.

 스타버즈라는 가상의 커피회사의 매출 인상을 위해 커피의 가치를 설득한 그룹, 가격을 인하한 그룹, 아무것도 시행하지 않은 그룹을 바탕으로 커피의 가치를 설득하는 것이 매출을 늘리는 것임을 결정하며 분석 및 통계의 가장 기본적인 원칙은 비교법이라 말하는 이유를 알게 해 줍니다.

 

 6장 베이지안 통계와 8장 휴리스틱 분석은 행동 경제학 서적을 읽었다면 너무나 반가울 만한 부분으로 희귀병에 걸린 확률에 대한 문제가 도마뱀독감으로, 휴리스틱과 알고리즘 사고를 쓰레기 배출을 줄이기 위한 캠페인으로 설명되고 있습니다.

 

 또한 이론 적인 부분이나 각자 종이로 해보는 것 뿐만 아니라 각종 툴에 대해서도 소개하고 실습 할 수 있도록 다루고 있습니다.

 3장에서 요인을 조작해 원하는 것을 최대한으로 얻을 수 있는 최적점을 찾는 최적화를 배우며 

처음으로 MS오피스의 엑셀을 이용합니다. 해찾기라는 있는지도 몰랐던 엑셀의 기능을 통해 복잡한 계산없이 최적점을 찾는 과정을 배울 수 있었습니다.

 9장에서 데이터의 분포, 변동성 중심 집중 경향을 측정할 수 있도록 사용되는 히스토그램을 배우며 통계 계산 도구의 미래가 될 수 있는 무료 오픈소스 프로그램 R을 소개, 설치, 사용하게 됩니다.  

이후 R은 책에 단골 손님으로 등장하여 다양한 사용법을 배울수 있었습니다.

 또한 12장에서는 가상의 뉴스잡지를 통해 엑셀과 R을 통해 각각의 테이블을 통해 데이터를 뽑고 분석하는 과정을 통해 각각의 테이블을 관리해줄 RDBMS 의 필요성을 먼저 이야기 한 후 소개하고 있습니다. 이와 같이 지식의 나열이나 툴의 소개가 아닌 해당 작업이 필요한 이유에 대해서 먼저 충분한 공감을 얻고 배울 수 있었습니다.

 

 예상외로 데이터 분석에만 속한 것이 아니라 전반적으로 사고하는 법, 문제 해결에 대한 과정들을 배울 수 있었으며 4장의 데이터 시각화에서 제일 중요한 것은 적절한 비교를 말한다는 부분과 5장 가설 검증에서 확인되지 않은 가설을 제거하는 반증법을 배운 것이 저에게 제일 유익했습니다.


  Headfirst 의 서적 답게 많은 사진과 그림, 도표가 가득하기에 488페이지라는게 믿기지 않을 정도로 쉽게 읽을 수 있었고 각 장에서 배워야 할 내용이 실무에서도 있을 법한 해결해야 할 목표가 스토리로 제공되기에 지루하지 않게 읽고 배울 수 있었습니다.

 그 목표를 향해 배움과 일을 하며 배워 나가고 있기에 스토리에 몰입해서 예제를 같이 실습하고 결과를 보기 전에 생각을 해본다면 실제 업무에서도 큰 도움을 줄 수 있으라 봅니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo