-
-
데이터 분석의 힘 - 그 많은 숫자들은 어떻게 전략이 되는가
이토 고이치로 지음, 전선영 옮김, 이학배 감수 / 인플루엔셜(주) / 2018년 8월
평점 :
얼마 전 인공지능에 의한 데이터 분석으로 새로운 신약 개발이 이루어졌다는 뉴스를 보았습니다. 글로벌 제약사 얀센과 협약을 맺은 베네볼렌트 인공지능이 수백만 건의 논문 등을 분석해 루게릭병 치료제를 찾아냈다는 것으로 지금까지 연구자들이 알아내지 못한 새로운 치료제를 AI는 일주일 만에 두 가지나 발견하였다고 합니다.
이러한 구체적인 성과에 힘입어 우리나라 정부도 그간 국가 연구 개발 사업으로 축적한 50만여 건의 연구 데이터를 활용해 평균 5년이 소요되는 후보 물질 개발 기간을 1년으로 단축하겠다는 구상을 가지고, 2026년까지 글로벌 신약 후보 물질 100개를 만든다는 목표로 인공지능 기반 신약 개발 지원 플랫폼 구축사업을 기획, 시범 사업을 실시하고 있습니다.
이 책은 미국 시카고대 해리스스쿨(공공정책대학원)의 교수인 저자가 이러한 데이터 분석에 대한 기본적인 내용을 중심으로 한 자신의 강연을 바탕으로 쓴 데이터 분석 입문서입니다. 이 책은 크게 총 6개의 장으로 나누어져 있습니다. 1장에서는 아이스크림 사업을 사례로 해서 광고와 매출 사이에 ‘상관관계’는 있다 해도 ‘인과관계’가 반드시 있는 것은 아니라는 점을 짚어줍니다.
2장에서는 2008년 미국 오바마 대선 캠프에서 일한 구글 출신의 데이터 분석 전문가가 후원금 모금 웹페이지를 무려 24개의 조합으로 설계하여 이를 웹사이트 방문자 31만 명에게 무작위로 보여주고 메일 주소 등록률이 제일 높았던 시안을 이후 선거운동에 사용하였습니다. 이를 통해서 약 6000만 달러의 후원금을 ‘추가로’ 획득하였습니다. 이것이 가장 투명하고 비용이 많이 들지만, 가장 확실한 데이터 분석법인 RCT(무작위비교시행)을 통해서 최적의 전략을 이끌어낸 대표적 사례입니다.
3장에서는 장수하는 노인이 많은 일본에서는 70세를 전후로 의료서비스 이용이 급격히 점프하는 현상을 통해서 급격한 변화의 ‘경계선’이 있는 데이터 분석법이 RD디자인(회귀불연속설계법)을 소개합니다. 4장에서는 자동차 무게와 연비 규제의 사례를 통해 계단식 변화가 있는 곳엔 집군분석법이 효과적인 분석임 보여주고, 5장에서는 1991년 덴마크가 실시한 우수한 외국인 노동자를 유입시키기 위한 소득세 감세 정책의 효과를 복수의 집단, 복수의 기간에 대한 데이터를 분석하기에 적합한 ‘시간의 흐름에 따른 패널 데이터 분석’을 통해서 분석해 봅니다.
6장에서는 실리콘밸리의 IT기업들부터 각국 정부들까지 데이터를 활용해 효과적인 전략을 수립하는 사례들을 살펴봅니다. 마지막으로 7장에서 앞에서 살펴 본 수많은 성공사례에도 불구하고 데이터 분석은 불완전하고 쉽지 않다는 것을 지적합니다. 그리고 불량 분석을 피하기 위한 방법에 대해서 살펴봅니다.
빅데이터란 사전적으로는 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 워낙 방대한 데이터라 인공지능과 같은 대규모 데이터 처리 장치를 거치고 적절한 기법을 이용해서 가공해야지만 우리에게 유의미한 ‘정보’를 제공해 줍니다. 이 책은 이러한 빅데이터를 이용한 ‘정보’를 얻는 기법 들을 다양하고 재미있는 사례를 통해서 알려주고 있습니다.