이 책에서 소개하는 데이터 분석법은 … 인과관계를 설명하는 데 초점을 맞추게 될 것이다. (p15) …… 독자들이 이 책을 읽고 나서 '데이터 분석이 이렇게 재미있구나. 데이터 분석이 이렇게 유용하다면 좀 더 깊이 공부하고 싶다'란 생각이 들게 하는 것이 궁극적인 목적이다. (p17)
어떤 현상에 대한 원인을 분석하기 위한 기본적인 기법들과, 그 각각이 지닌 장점과 한계를 설명한다는 점에서 이 책은, 앞서 읽었던「원인과 결과의 경제학」과 마찬가지로 --- (원인에 대한 분석을 하기에 앞서) '원인과 결과를 구분하는 것'이 왜, 그리고 얼마나 중요한가를 그야말로 '쉽고 지루하지 않게' 독자들에게 일깨워 주겠다라는 목표를 지극히 충실히 이루어내고 있다라 생각합니다.
저 개인적 견해로는「원인과 결과의 경제학」을 읽은 후에, 이 책「데이터 분석의 힘」을 읽는 것이, 그 반대의 순서보다는 더 낫지 않을까 싶습니다. 그 이유로, 두 책 사이의 차이를 굳이 짚어보자면 --- 다루고 있는 통계 기법의 범위는「원인과 결과의 경제학」이 좀 더 넓고 서술도 더 쉬우며, 특정 기법에 대한 설명과 제시되고 있는 사례에 대한 분석의 수준은 이 책「데이터 분석의 힘」이 좀 더 깊다고 생각되기 때문입니다. (물론 선택은 당신의 몫!)
……………………………………………………………………………………
이 책 역시,「원인과 결과의 경제학」과 마찬가지로, RCT (Randomized Controlled Test, 랜덤화 비교 시험)을, 인과관계 분석에 대한 설명의 출발점으로 하고 있습니다. RCT의 결과에 대하여,「원인과 결과의 경제학」은 '통계적으로 유의미하다'라는 것에 대한 매우 간단한 설명을 곁들이고 있는 것에 비해, 이 책은
RCT를 실시할 때는 기술통계의 밸런트 체크(기술통계의 평균값이 개입집단과 비교집단 간에 비슷한 값을 보이고 있는지 확인하는 작업)를 해야 한다. 평균값에 큰 차이가 있다면 집단이 무작위로 적절하게 나뉘지 않았을 가능성이 있기 때문이다. …… 평균값의 차를 통계적으로 검증할 때는 값의 크기만 보는 것이 아니라 '평균값의 차는 통계적으로 0인가'도 테스트해야 한다. 그때 유용한 것이 표준오차다. (pp65~67)
(뭐 거기서 거기이겠지만 어쨌든) 약간이나마라도 분필 냄새 나는 설명을 곁들이고 있지요. 거기에 더해,
데이터 분석이라고 하면 기존 데이터를 분석하는 작업이라고 생각하는 사람이 많다. 하지만 RCT는 '문제의 답을 얻기 위해 데이터를 만들어간다' (p98)
라는, 지극히 단순하지만 RCT의 핵심적인 내용을 이처럼 명확하게 집어주고 있다라는 점도 적잖이 인상적이었습니다. --- 물론, 이러한 입문서를 읽음으로 인해 책 속에 소개되고 있는 여러 통계 기법의 사용이 가능해지지는 않습니다. 그렇게 되기 위해선 어쩔 수 없이 / 반드시 수리적 배경에 대한 공부와 통계 패키지의 활용 능력이 함께 필요하기 때문이죠. 그럼에도 불구하고,
【 대중을 상대로한 입문서 】
필자가 연구자의 길을 걷기로 결심하게 해준 것은 고등학교 시절에 만난 어떤 입문서였다. (p224)
예의 이 책은,「원인과 결과의 경제학」과 마찬가지로, 특정 집단이 아닌 일단 대중을 대상으로 쓰여진 책입니다. 비록 이러한 책들을 읽는다/공부한다 하여 당장 어떠한 skill의 습득을 기대할 수는 없다 하여도, '인과관계의 중요성'에 대한 인식의 제고, 더 나아가 --- 관련 분야에 대한 흥미를 갖게 해주고, 한층 더 심화된 학습/공부를 이끌어 낼 수 있다라는 점에 가장 큰 의의가 있다라 생각합니다. 즉,
인과관계 분석이라는 지식의 습득에 그치는 것이 아닌, 현재 이후부터의 미래엔 더 많은 사람들이 더 깊이 있게 인과관계의 중요성에 대한 인식을 갖게 될 것이라는 점, 그럼으로써 사회 전체가 보다 합리적인 논쟁을 펼치게 될 수 있다라는 것이죠. 그렇게 된다면,
RCT는 데이터에 근거한 과학적인 증거를 제공해준다는 의미에서 정책 입안에 매우 유효한 수단이다. 요즘은 전 세계에서 증거에 기반해 정책을 수립하는 흐름이 거세지고 있다. (p202)
불필요한 이데올로기 논쟁으로 인한 사회적 낭비 / 혼란 등의 극복을 보다 쉽게 이루어낼 수 있지 않을까 생각해 봅니다. 예를 들어 --- 기본적으로 애매모호한 개념일 수 밖에 없는 '지역 균형 발전'이라는 목표의 수단으로, 게다가 도대체 왜! 그것이 필요한지에 대한 아무런 설득력 있는 설명도 내놓지 않는 채 마치 그것이 절대 선(善)인 양 들이미는 정치 논리는 결국 "데이터에 근거한 정책 수립 같은 건 필요 없고~"와 다름 없는 '예타 면제'라는 정책을 실행함으로써, 그 선물을 받지 못한 지역들의 거센 반발만을 초래하고 말았죠.
원래 '예비 타당성 분석'이라는 것 자체가 완벽하게 객관적일 수 없는, 일정 부분 연구자의 주관적 변수 배열 가능성을 내포하고 있는 것이죠. 그럼에도 불구하고, ('제 3자를 통한'이라는 전제 조건의 충족 여부를 떠나) 최소한의 객관적 검증이라도 해보자는 것이 '예비 타당성 분석'이겠거늘, 일단 그것마저 생략한다라는 걸, 정치적 의도를 제외한다면 도대체 어떻게 받아들여야 할지, 솔직히 전 모르겠습니다.
데이터를 분석할 때는 과정과 결과가 투명해서 분석자가 아닌 사람에게도 설득력이 있어야 한다. (p73)
혹시라도, 과정과 결과의 투명함에 자신이 없기에 그같은 결정이 내려진 것은 아니겠느냐,란 의심을 가지는 이에게, '예타 면제' 정책의 결정권자는 과연 어떤 대답을 내놓을 수 있을지, 사뭇 궁금하기도 하네요.
"인과관계를 검증하지 않고 언뜻 효과 있어 보이는 정책을 무턱대고 실시한다면 국민들에게 큰 위험 부담을 안기게 된다는 점을 결코 잊어서는 안 될 것이다."
- 나카무로 마키코 · 쓰가와 유스케,「원인과 결과의 경제학」p115, 리더스북, 2018.
……………………………………………………………………………………
소규모로 이루어진 실험의 결과가 대규모로 이루어지는 실제 정책 개입과 같은 결과를 낳을지는 신중한 검토가 필요하다. …… 통상의 소규모 RCT에서는 개입이 실험에 내재된 변수에만 영향을 미치는 것으로 여겨진다. …… 그러나 실제 정책으로 광범위하게 개입이 이루어지면 예상치 못했던 변수도 영향을 받게 된다. (pp 220~222)
「원인과 결과의 경제학」에서, '외적 타당성'이 강조되고 있었었다면, 이 책은 '내적 타당성'의 섣부른 확장에 대한 경고를 추가하고 있습니다. 이게 비단 데이터 분석에만 해당되는 건 아니겠지요. 우리의 일상에서도, 직장에서의 업무적 영역에서도 또한 반드시--- 인과관계의 확인, 내적 및 외적 타당성에의 검토가 병행되어야 한다라는 것이, 이 책이 대중들에게 선사해줄 수 있는 가장 큰 의의가 아닐까 싶습니다. 그런 점에서...
과연 우리나라에서도 '데이터 분석'에 대한 서적이 주목을 받을 수 있을까? (p8) - <감수 및 추천의 말> 중
이같은 조심성(?)만 지니고 있는 우리나라 학자의 의문은 참으로 안타깝기만 합니다. 주목 받을 수 있을까를 염려하기보다는, 주목을 이끌어 내는 것이 (한창 학문에 매진하는 단계를 지난) 노학자의 역할이 아닐른지...
※ 이 책에 앞서/함께 읽기를 권하여 보는 책 : 「원인과 결과의 경제학」