-
-
데이터 분석의 힘 - 그 많은 숫자들은 어떻게 전략이 되는가
이토 고이치로 지음, 전선영 옮김, 이학배 감수 / 인플루엔셜(주) / 2018년 8월
평점 :
이 책은 통계적 지식 없이 데이터 분석 기법을 설명하고 기업과
정부기관에서 의사결정에 적용되는 사례를 소개한 책이다.
이 책에서 다루는 데이터 분석법은 ‘인과 관계 분석법’이고, 책의
내용은 4가지 인관 관계 데이터 분석 기법을 설명하고, 실제
기업과 정부가 데이터 분석을 활용한 사례를 소개하고, 마지막으로 데이터 분석 기법과 관련된 유의 사항에
대해 기술한다. 아울러, 심화된 내용을 위한 참고도서와 통계학에서
사용된 수식과 해설, 참고 문헌이 수록되어 있다.
우선, 가장 기본적인
데이터 분석 방법에 속하는 [상관 분석]과 [인과관계 분석]의 차이를 살펴보는 것으로 시작된다: 일상 생활 속에서 자주 만나게 되는 뉴스 기사나 주장들 중에서 근거가 잘못된 사례들을 소개한다.
[인과관계 분석 기법]은 크게 ‘인위적 실험’에 기반한 방식과 ‘자연
실험’에 기반한 방식, 2가지로 분류될 수 있다:
이상적인 ‘인위적
실험’을 수행하는 RCT(무작위 비교 시행) 분석법은 원하는 분석에 적합한 실험을 설계할 수 있다는 장점이 있지만 이른바 ‘타당성’ 문제나 ‘개입
효과’ 처럼 비용, 노력,
협력의 단점을 갖는다.
우연히 발생한 실험과 비슷한 상황에 대한 측정 데이터를 활용하는
‘자연 실험’에 기반하는 방식으로 3가지 방법이 소개된다: 회귀 불연속 설계법(RD디자인); 집군 분석; 패널
데이터 분석.
희귀 불연속 설계 법은 한가지 요인만이 경계선 상에서 비연속적으로
갑자기 변할 것이라는 가정하에 인과관계를 분석하는 것으로, 다른 요인에 의한 영향을 고려하지 않고 전체가
아닌 경계선 부근의 일부분에 대해서만 인과관계를 설명한다는 단점이 있다.
집군 분석은 계단식 변화를 보이는 경우에 인과관계를 분석하는
것으로, 단계적 인센티브의 사용이 필요하고, 역시 전체가
아닌 경계선 부근에서 인센티브에 반응한 대상만 한정된다는 약점이 있다.
패널 데이터 분석은 집단의 측정 데이터에 경계선이 없는 흐름을
보일 때 사용하는 방법으로, 비교 집단 사이의 ‘평행 트렌드’를 가정한다. 그러나, 현실적으로
‘평행 트렌드’ 가정을 만족시키는 경우가 거의 없기 때문에
사용하기 매우 어려운 단점이 있다.
구글의 웹 광고 전략 정책과 오바마 행정부의 정책의 예산
지출액과 효과에 사용된 데이터 분석의 사례를 소개하며, 성공적인 데이터 분석을 위해 2가지 요건이 필요하다는 점을 지적하고 있다: 의사결정자가 데이터 분석
전문가와 협력 관계를 구축해야 하며, 데이터 분석 전문가에게 쉬운 데이터 접근을 허용해야 한다는 것이다. 아울러, 기업과 정부가 데이터 분석 전문가와의 협력 사례를 소개하고
있다.
마지막으로 데이터 분석과 관련하여 주의해야 할 5가지 사항들을 기술하고 있다: 데이터 자체의 불완전성; 분석 결과 자체의 인과성 성립에 관한 내적 타당성 문제와 외부 적용에 관한 외적 타당성 문제; 외적 타당성 관련 출판 편향 문제와 협력 관계 편향 문제; 집단
비교를 위한 가정으로 필요한 ‘자기 선택’ 문제와 ‘개입의 파급 효과’ 문제; 규모의
확대로 인한 ‘일반 균형적 효과’ 문제.
이 책에서 다루는 내용이 실험이나 관찰로 얻은 측정 데이터를
해석하는 방법, 특히 ‘인과관계’라는 관점에서 이해할 때 필요한 기준을 제시해준다는 점에서 우리의 일상 생활에서 활용할 여지가 많다. 예를 들면, 뉴스 기사를 통해 접하게 되는 기업 경영전략이나 정부의
정책에 대해, 근거로 제시되는 데이터를 가지고, 데이터 자체에
대한 신뢰성(실험 상황, 실험 집단과 비교 집단의 특성 등)과 데이터의 결과 적용에 대한 문제점들을 하나씩 따져 봄으로써, 올바른
결론인지 직접 판단할 수 있을 것이다.
‘인과관계 분석법’은 굳이 빅데이터 중심의 4차 산업 혁명 시대가 아니더라도, 지금 당장의 현실 속에서도 유용한
도구임에 틀림없다.
뉴스 기사나 여론에 대한 비판적 시각을 키우기를 원한다면, 일독을 권한다.