데이터 분석의 힘 - 그 많은 숫자들은 어떻게 전략이 되는가
이토 고이치로 지음, 전선영 옮김, 이학배 감수 / 인플루엔셜(주) / 2018년 8월
평점 :
장바구니담기


<데이터분석의 힘>은 그리 두꺼운 책이 아닙니다. 그럼 재미로 읽을수 있는 내용이겠지 하고 이책을 펴면 깜짝 놀랄겁니다. 왜냐하면 데이터 분석의 핵심을 바로 담고 있기 때문입니다. 이 책에는 데이터분석을 하는 이유를 다루기 때문입니다. 우리는 묻습니다. 어느 회사가 광고를 했는데, 매출이 늘었다. 해외유학을 다녀오면 취직이 쉽다. 전력가격이 오르니 소비량이 줄었다. 책에 사용된 예입니다. 너무도 당연해 보이지만 둘사이는 관계가 없이 다른 요인이 의해 발생했을 수도 있다는 겁니다. 이를 상관관계는 있는데, 인과관계는 없다라고 합니다. 이 책에서는 이러한 관련성에 좀더 확신을 주는 방안을 소개합니다.

저자 이토 고이치로는 바로 인과관계를 제대로 분석하는 법에 대해 RCT를 중심으로 설명을 합니다. 아마도 최근 빅데이데에 관련된 책이 많이 나왔지만 데이터를 어떤 방식으로 다뤄야 하는지만 정확히 현실에 사용할수있게 다룬 책은 잘 못본 것같습니다. 저자는 일본에서 태어나 동경대를 나와서 현재는 시카고대에서 강의를 하고 있다고 합니다. 이 책만을 통해서도 어떻게 구해진 데이터로 어떻게 분석해야하는지를 알수있도록 해둔 우수한 분석책입니다.

상관관계를 아는 것은 어렵지않지만 그것의 인과관계를 아는 것은 쉬운 일이 아니라고 합니다. 이 문제를 해결하기 위해 개입집단과 비교집단을 비교하는 방법을 제안합니다. 이를 무작위비교시행(RCT)라고 합니다. 비교하는 방법은 아마 최근 디지털마케팅관련 내용을 공부한 사람들은 많이 들었을 A/B테스트를 하라는 겁니다. 오바마도 홈페이지를 개설하고 31만명의 방문자에게 24가지 다양한 화편을 무작위로 보여주어 제일 많이 호응있었던 화면으로 선정해서 많은 후원금을 얻은 예를 설명을 합니다. 이 방법을 사용하는 방법이 앞에서도 말한 디지털마케팅의 최근 대표적인 방법입니다. 솔루션을 제공하는 툴들이 많이 늘었습니다.

RCT가 좋은 방법이지만 문제는 개입비교를 하게 되면 윤리적 문제가 생기는 경우가 있기에 대체 방법(자연실험)이 생겼다고 합니다. 첫번째가 회귀불연속설계법(RD디자인)이라고 합니다. 이 방법은 불연속과 경계선의 변화로 관계를 알게 해준다는 겁니다. 예를 들어, 의료보험에서 본인부담금변화와 의료서비스이용같은 경우 무작위로 달리하면 논란이 커지게 되기에 일본의 경우 70세가 되면 의료비용이 30%에서 10%로 떨어지기에 이때의 변화를 보면서 관계를 알아보는 방법이라고 합니다. 이 방법은 경계선에서 변화가 크기가 커진다고 합니다.

둘째는 집군분석입니다. 집군분석은 통계치가 계단식으로 나타나는 경우가 사용한다고 합니다. 자동차무게와 관련된 연비나 소득세같은 경우는 영향이 클겁니다. 이런 분야는 계단의 끝점 경계에 데이터가 집중되는 경향을 보인다고 합니다. 어쩌면 세율등급이나 자동차는 일본에서는 무게(한국은 CC)를 기준으로 규제선을 만들기에 그런 현상이 나타날겁니다. 마지막은 복수의 집단과 복수의 기간을 이용시 패널데이터분석도 소개를 합니다.

구글이나 페이스북, 아마존페이지에 접속을 하면 꾸준히 RCT테스트를 진행한다고 합니다. 새로운 페이지를 열면 사용자마다 다른 개입사례로 결과를 취합하여 많은 사람들에게 노출하는 작업을 계속합니다. 정부단위에서도 A정책을 취했을때 B의결과를 노이즈없이 알기위해 앞에서 설명한 자연실험을 통해 데이터분석의 결과를 알아봅니다. 하지만 데이터에 문제가 있다면 이런 분석은 의미가 없고 원론적으로 완벽한 분석은 없다는 점을 직시하고 항상 리스크를 고려해서 결과를 활용해야할겁니다.

 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo