빅데이터를 지배하는 통계의 힘 : 입문 편 - 통계학이 최강의 학문이다 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김 / 비전비엔피(비전코리아,애플북스) / 2013년 7월
평점 :
구판절판


니시우치 히로무의《빅데이터를 지배하는 통계의 힘》은 자고로 어떤 분야에 대한 전문가가 글을 쓰려면 이렇게 써야 한다는 모범을 보여준 책이다.

이 책은 통계적 지식이 거의 없는 독자들이라도 편하고 재미있게 볼 수 있다. 물론 통계학에 대한 지식이 있거나 전공자라도 일독할 가치가 충분하다.

 

1903년, H. G. 웰스는 읽기, 쓰기 능력과 마찬가지로 통계학적 사고 역시 장차 사회인이 갖춰야 할 기본교양이 될 것이라고 예언했다.(16쪽)


저자는 딱 110년 전 자못 거대한(?) 예언을 소개하면서 시작한다. H. G. 웰스는 SF소설의 아버지라 일컬어지는 작가이자 비평가로 타임머신이나 투명인간 같은 SF적 소재를 소설로 써서 유명해진 사람이다. 또 폭넓은 과학지식을 바탕으로 핵무기와 국제연맹, 심지어 오늘날 널리 쓰이는 위키피디아 같은 백과사전의 등장까지 예언했을 만큼 선견지명이 뛰어난 인물이었다고 한다.

저자는 나아가 우리가 읽고 쓰는 능력을 리터러시(Literacy)라고 하듯이 앞으로는 '통계 리터러시'(확률이나 데이터를 이해하는 능력)가 중요해질 것이라고 단언한다. 이 책은 이에 대한 증명이라고 해도 좋을 정도로 풍부한 사례와 예시가 듬뿍 담겨있다.

왜 통계학이 힘이 되고 최강의 무기가 되는가? 그것은 바로 "어떤 분야에서든 데이터를 모아 분석해 가장 올바르고 빠른 답을 제시해 주기 때문"이다. 더욱이 최근 IT의 눈부신 발전으로 이전에는 불가능했던 빅데이터도 쉽게 분석, 응용할 수 있는 시대가 되었다.

 

통계학은 지금 IT라는 강력한 동반자를 만나 모든 학문 분야를 통틀어 세계 곳곳에서, 그리고 인간의 삶이 미치는 모든 영역에서 최선의 답을 제시하고 있다.(48쪽)


현대 의료에서 가장 중요한 개념 중 하나가 ‘과학적 근거에 바탕을 둔 의료(EBM, Evidence-baesd Medicine)’이다. 이는 타당한 방법에 의해 얻어진 통계 데이터와 그 분석 결과를 활용하여 진료와 치료에 활용하는 것이다. 가령 담배와 폐암의 원인 규명이 대표적인 예이다.

비즈니스에 구체적으로 통계와 데이터분석을 활용하기 위해서는 다음과 같은 세 가지 질문에 답할 수 있어야 한다.

 

1. 어떤 요인을 변화시켜야 이익이 향상될까?
2. 그런 변화를 일으키는 행동이 실제로 가능한가?
3. 그에 따르는 비용이 이익을 상회할까?


우리는 '충분한 데이터'를 바탕으로 '적절한 비교'를 하는 통계적 인과추론의 기초만 몸에 배어 있으면 경험이나 감을 뛰어넘어 비즈니스를 단숨에 한 단계 업그레이드시키는 비결을 손쉽게 찾아낼 수 있다. 여기서 '통계의 힘'이 느껴진다. 통계의 힘은 '경험이나 감을 뛰어넘'게 해 준다.

'통계의 힘'이란 바로 수치와 자료를 대상으로 과학적 근거를 도출하는 작업이요, 그리하여 인과관계를 규명하여 최소한의 비용으로 최대한의 이익과 성과를 달성하는 것이다. 이게 바로 '통계의 힘'이 아닐까?

책에는 무척 흥미로운 일화도 소개되어 있다.
현대 통계학의 아버지 로널드 A. 피셔가 1935년에 쓴〈실험계획법〉은 세계 최초로 임의화 비교실험을 체계화한 것이라고 한다. 여기에 밀크티에 정통한 한 부인의 이야기가 등장한다.

 

1920년대 말 영국, 햇살이 매우 강한 어느 여름 오후, 여러 명의 영국 신사와 부인들이 정원 테이블에서 홍차를 마시고 있을 때의 일이었다. 한 부인이 밀크티를 마시면서 자신은 '홍차를 먼저 넣은 밀크티'인지 '우유를 먼저 넣은 밀크티'인지를 맛으로 구별할 수 있다고 말했다.


얼핏 듣기에는 아무것도 아닌 한 부인의 주장까지도 과학적으로 실증할 수 있다는 것이 임의화 비교실험의 힘이다.

 

그 자리에 있던 피셔는 '그렇다면 한번 시험해 보고 싶다'면서 그는 부인이 볼 수 없게 한 상태에서 여러 개의 찻잔에 서로 다른 방법으로 탄 밀크티를 준비했다. 그다음 부인에게 임의로 차를 마시고 답을 적도록 했다. 이것이 세계 최초로 이루어진 임의화 비교실험이었다.(108~109쪽)

 

그 결과는 어떠했을까? 궁금하면 직접 확인하실 것을 권해 드린다. ^^

여담이지만, 2003년 영국왕립화학협회가 발표한 '한 잔의 완벽한 홍차를 타는 법'이라는 보도자료에 그 힌트가 있다. 홍차를 더욱 맛있게 마시는 비법이 아닐까?

 

홍차를 넣기 전에 우유를 미리 따라놔야 한다. 우유 단백질은 섭씨 75도가 되면 변성되기 때문이다. 만약 우유를 뜨거운 홍차에 따르면 각각의 우유 알갱이는 우유 결정으로부터 벗어나 확실한 변성이 생기기까지 홍차의 고온에 둘러싸인다. 그러나 뜨거운 홍차를 차가운 우유에 따르면 이 같은 일이 일어나지 않는다.

 

피셔의〈실험계획법〉은 다양한 분야의 모든 연구자에게 필독서가 되었으며, 한때 전 세계를 통틀어 과학논문에서 가장 많이 인용된 책으로 기록되었다고 한다. 나아가 심리학, 교육학, 정책학 그리고 우리의 일과 직접 관련된 경영학 같이 복잡하고 오류 투성이인 인간을 대상으로 삼는 과학이 마침내 20세기에 그 꽃을 활짝 피웠다는 것이다. 저자는 책 여러 곳에서 피셔의 공로와 업적을 중요하게 다루고 있다. 심지어 '천재'라는 극찬까지.

하지만 임의화 실험법은 언제나 사용할 수 있는 것이 아니라고 한다. 여기에는 세 가지의 벽이 있다.

 

1. 현실의 벽: 가령 우주왕복선을 달에 보낼 때 승무원은 3명이 좋을지 4명이 좋을지를 놓고 NASA에서 갑론을박이 벌어졌다고 할 경우, 이처럼 '단 한 번만의 기회' 혹은 있더라도 겨우 몇 번 정도밖에 기회가 주어지지 않는 일에는 통계학은 무기력해진다.

2. 윤리의 벽: 가령 담배와 폐암발생, 대지진 실험 등 피실험자 몸에 유해한 결과나 부상을 초래할 경우 임의화 실험이 어려울 수 있다.

3. 감정의 벽: 가령 빈곤 가정에 경제적 지원을 하는 경우 사회적 낙인 등 윤리적으로 문제가 있더라도 '우리는 상관없으니 보조를 해 주시오'라고 할 수 있다. 반대로 '일부 가정에만 그런 혜택을 주다니 너무하는군'하고 반감을 가질 수도 있다.

 

좀더 진도를 나가면, 참값, 회귀분석 및 상관계수, 평범으로의 회귀(나중에 '평균값으로의 회귀'라 불린), t검정, 다중회귀분석과 로지스틱 회귀 등 그야말로 실제 통계분석기법에 대해서도 알기 쉽고 재미있게 설명하고 있다. 저자의 노하우와 내공에 대한 면모를 제대로 느낄 수 있는 부분이다.

6장 에서는 지금 전 세계에 통용되는 통계학의 여섯 가지 특징에 대해 설명하고 있다.

 

1. 실태를 파악하는 사회조사법
2. 원인을 규명하는 역학·생물통계학
3. 추상적인 것을 측정하는 심리통계학
4. 기계적 분류를 위한 데이터마이닝
5. 자연언어 처리를 위한 텍스트마이닝
6. 연역에 관심을 두는 계량경제학

 

이 부분에 대해서는 차근차근 읽어보실 것을 권해 드리고 싶다. 나는 특히 4번과 6번 항목에서 많은 힌트를 얻을 수 있었다. 특히 두 영역은 비즈니스 분야에도 실제적으로 유용하게 활용될 수 있겠다고 본다.


마지막으로 옮긴이 신현호의 후기를 소개하면서 마치고자 한다.

 

이 책은 결코 통계학의 입문서가 아니며 전문서적은 더더욱 아닙니다. '정보의 홍수' 시대를 거쳐 '빅데이터' 시대를 살아가는 우리에게 통계학이란 무엇이며 어떻게 유용성을 발휘하는지 깨우쳐주는 역할에 초점이 맞춰져 있기 때문입니다.

여러분이 이 책을 읽고 통계학은 무슨 거창한 학문이 아니라 앞으로 모든 장면, 비지니스 현장을 포함한 대부분의 일상생활에서 필요성이 더욱 커지겠구나, 하는 생각만 가졌더라도 소기의 목적은 달성도었다고 봅니다.(295쪽)

 

바야흐로 통계가 부(富)를 창출하는 시대! 그간 인류가 쌓아온 무한의 빅데이터를 잘 활용하면 신천지를 개척할 수도 있다. 이제 유능하고 해박한 통계 리터러시로 거듭나서 통계를 우리의 힘으로, 최강의 무기로 삼자!


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo