-
-
데이터 분석의 힘 - 그 많은 숫자들은 어떻게 전략이 되는가
이토 고이치로 지음, 전선영 옮김, 이학배 감수 / 인플루엔셜(주) / 2018년 8월
평점 :
유사 이래 최근처럼 통계의 활용성과 가능성이 높게 평가된 적이 없다 해도 과언이 아닐 것이다. 인터넷의 발달과 함께 엄청난 자료들이 쌓아져 왔고, 그것이 단편적인 정보 쓰레기가 아닌, 보물이 되어 우리들의 삶에 또 다른 편익을 주고 있다. 이러한 빅데이터의 붐은 단순히 프로그램 개발자에게만 국한된 것이 아니다. 오히려 인문, 과학, 예술, 산업 등 다양한 업계 종사자들에게 새로운 발전의 가능성을 부여하고 있으며, 이들이 빅데이터를 제대로 알고 있어야 더 많은 활용성과 가능성을 낳을 수 있다.
다만, 빅데이터는 대부분 수학을 활용하고 있다. 각종 통계 기술과 IT 기술이 한데 어우러져 쓰이고 있기에 이 분야를 전혀 모르는 경우 접근하기가 쉽지 않고, 관련 서적을 보는 일도 그리 즐거운 일이 아니다. 그렇지만 빅데이터가 주는 각종 이득은 너무나 매력적이기에 그냥 무시할 수도 없다. 남보다 앞서 나가고자 한다면, 무조건 알아야 한다.
그리고 사실 빅데이터에 있어서 수학 공식과 IT 기술보다 더 중요한 것은 산더미 같은 많은 자료들에서 옥석을 가리는 것이다. 이것을 보는 눈은 당연히 해당 분야 종사자가 더 잘할 수 있는 것이다. 여기에 빅데이터 기법을 알고 제대로 접목한 다면, 엄청난 기대 효과를 볼 수도 있는 것이다.
데이터 분석 전문가, 이토 고이치로의 '데이터 분석의 힘'은 비전문가도 누구나 쉽게 이해할 수 있는 데이터 분석의 정도를 알려주는 책이다. 또한 복잡한 수학식을 배제하고, 실제 있었던 다양한 활용 사례를 들어 설명하고 있어서 전혀 어렵지 않고, 활용 아이디어를 얻기에도 좋다.
조금 전 정도라는 단어를 썼는데, 왜 이 책에 그런 단어를 썼는지 첫 단원을 보면 이해할 수 있다. 여기서 데이터의 상관관계와 인과관계의 차이를 말하고 있는데, 이 파트는 데이터 분석의 가장 중요한 요소이기 때문이다. 통계는 얼마든지 왜곡이 가능하다. 통계 조사 시작부터 왜곡할 수도 있고, 나온 결과를 자의적으로 해석해서 전혀 엉뚱한 방향으로 끌고 갈 수도 있다. 전 세계적으로 난무하는 각종 가짜 뉴스와 가짜 통계들이 바로 그러한 것들이다. 그래서 첫 파트에 바른 분석을 위한 이야기를 둔 것이다. 광고를 했더니 아이스크림 매출이 올랐다는 예를 들어, 이것을 어떻게 봐야 하는지 말하고 있다. 광고 때문에 매출이 오른 것인지, 아니면, 여름이 되어 자연스럽게 매출이 상승한 것인지, 또는 소비 트렌드나 국가 경제가 활성화되어 자연스럽게 편승해서 오른 것인지 여러 경우를 따져 생각해야 한다는 것이다. 무척 중요한 얘기인 것이다. 그만큼 데이터 분석을 위한 바른 설계가 중요한 것이다.
우선 바른 데이터 분석을 위한 최선의 데이터 분석법인 무작위비교시행 RCT를 얘기하고 있다. 우리도 올여름 무더위로 인해 큰 관심이 되었던 전기 요금에 관련된 예가 나와서 더욱 관심을 가지고 본 부분이다. 전기 요금 인상이 전기 절약과 어떤 관계가 있나를 RCT로 분석한 것으로 개인집단과 비교집단을 무작위로 선정해서 나누는 것이 중요한 방법이다. 다만 비용과 시간이 많이 들고 이 방법을 적용하기 곤란한 경우도 있기에 또 다른 분석법인 자연실험 기법 RD 디자인에 대해 설명해준다. 여기서도 전기 관련 예가 나오다 보니, 괜히 머릿속에 더 쏙쏙 들어온다.
두 가지 방법 외에 집군분석과 패널 데이터 분석에 대해서도 설명하고 있다. 즉 총 4가지 방법이 책에 나오는 것이다. 나머지 방법도 자동차 연비 규제에 따른 자동차 무게 변화, 소득세 세율이 노동 방식에 미치는 영향, 세금 인하와 이민자의 관계, 자동차 보조금을 통한 경기 부양 효과에 관한 바른 분석에 대한 이야기가 나온다.
이 밖에 구글이나 우버, 슈퍼마켓과 같은 기업들의 빅데이터 분석 사례도 나와 있는데, 이를 통해 정부나 기업의 데이터 공개의 중요성을 얘기하고 있고, 저자의 실제 분석 경험도 담고 있어, 어떻게 분석이 이뤄졌는지 살짝 엿볼 수 있다. 책 속 모든 사례가 하나하나 생활에 관계된 것이라 그런지 분석 내용들이 와닿았고, 닿았고, 이해하기 쉽게 도왔다.
저자는 책 속에 내내 분석 오류의 가능성에 대해 얘기를 하고 있는데, 책 마지막에 외적 타당성, 내적 타당성, 출판 편향 등 얘기 못한 것들을 정리하고 있다. 데이터 분석 오류를 경계하고 이를 처음부터 막고자 강조하고 있는 것이다.
'데이터 분석의 힘'은 무척 잘 쓰인 책이다. 번역 또한 감수까지 거쳐 좀 더 잘 되었다 생각한다. 책 내용 중에는 수식들이 나오지 않으나, 부록에 관심 있는 분을 위해 몇 가지 증명을 담고 있다. 또한 각종 참고문헌과 논문 역시 잘 정리되어 있어서 깊게 공부하는데 도움을 준다. 게다가 데이터 분석에 관련된 서적들을 입문서, 중급서, 대학원 수준의 상급서까지 단계별로 나눠 친절한 조언과 함께 제시하고 있어, 깊게 알고 싶은 이들에게 좋은 가이드까지 해주고 있다.
'데이터 분석의 힘' 읽고 나니, 빅데이터에 대한 기법보다 우선 이 책을 읽는 것이 더 값지다 생각이 들었다. 그만큼 방향 설정과 이해에 도움이 되는 책이다. 기획이나 마케팅, 정책 업무 담당자들에게 참고가 되는 책이며, 전공자나 이공계열이 아니더라도 누구나 읽고 이해할 수 있는 쉬운 책이다. 빅데이터에 관심이 있는 분들에게 추천하고 싶은 책이다.