통계의 거짓말
게르트 보스바흐.옌스 위르겐 코르프 지음, 강희진 옮김 / 작은책방(해든아침) / 2016년 5월
평점 :
구판절판


 


"①통계 자체가 사악한 것은 아니다. 문제는 ②통계 기법에 대한 이해가 부족하다는 데 있다. 나아가 ③특정 집단이 자신들의 이익을 위해 통계를 함부록 활용하고 해석하는 것이 문제의 원천이다."(p241)

- 디터 호흐슈테터 著, 「통계기법학」중에서 인용된 문구

제가 이해했던 바의 「신은 주사위 놀이를 하지 않는다」에서 저자 데이비드 핸드가 말하고자 했던 한 마디는 결국 "확률에 대한 직관적 이해가 부정확"1하기 때문에 사회를 바라보는/해석하는 데 있어서 우리의 혼란/혼동이 시작되는 것이며, 끝내 잘못된 판단/결론을 내리게 된다라는 것이었습니다. 그 책이 보여주려 했던 관점이 '조금만 알고 나면 별 놀랄 일 아니고, 좀 더 많이 알고 있다면 꽤 정확한 예측도 할 수 있게 된다'라는, 즉 '통계학적 사고(思考)'의 중요성을 대중(大衆)들에게 일깨워주기 위함이었다라면! --- 이 책 「통계의 거짓말」은 우리가 일상에서 접하게 되는 통계(수치)가 지니고 있는 '의도적 주관성'의 실상과 폐해에 관해 폭로(!)해주고 있는 책입니다.

 

………………………………………………………………………………

이 책에서 두 저자는 기업이나 정부, 그리고 언론 등이 만들어 낸 '숫자와 통계의 함정들'(p11)로 인해 '내'가 손해를 볼 수도/보고 있다라 주장합니다. 물론! 그 '함정들'이란 것이 대부분은 특정한 '의도'에서 만들어진 것들이지만, 때로는 그들의 단순무식함 때문에 발생되기도 한다라는 점에서, 결국 '나 스스로'를 지키는 것은 '나 자신'이어야 하기에 의도적으로 조작된 것이건, 무지함에서 발생된 것이건 그러한 함정들을 피해갈 수 있는 ('능력'이라고까지 표현하긴 그렇고) 최소한의 '눈썰미'정도는 가지고 있자,라는 거지요. 근데 말이죠! - 이 책에서 저자들이 제시하고 있는 최소한의 '눈썰미'는 말 그대로 '눈썰미'이고, 그러하기에 결코 장착하기 어려운 것이 아니란 겁니다.  

【 인과관계(causation)의 중요성

제가 쓴 감상문에 은근 자주 등장했던 '수단과 목적의 전이(轉移)'가 초래하는 잘못된 판단/인식과 동일한 맥락에서! --- '통계(수치)'를 대함에 있어 가장 중요한 것이 바로 '상관관계와 인과관계의 구분'이라 저는 생각합니다. 이건 비단 통계를 논할 때 뿐만이 아니라 우리의 일상 생활, 그리고 일상적 사고(思考)에서도 매우매우 중요한 차이를 만들어 내지요.   

'상관관계(correlation)'이란 "동시에2 두 가지 사건이 일어난다"(p58)라는 뜻입니다. 이 때! --- 동시에 발생한 A와 B라는 사건들의 관계는, A가 원인이 되어 B가 발생된 것일 수도, 혹은 그 반대의 경우도 있을 수도, 심지어는 쌍방향의 인과관계가 존재3할 수도 있으나, 그저/단순히 둘이 동시에 성립되는 경우4도 얼마든지 있을 수 있지요. (아~주 단순한) 예를 들어, 어느 반(反)재벌 논조의 신문사에 근무하는 (당연히! 반재벌 정서의) 경제부 기자가 기사에 쓰길

​"S그룹 직원들의 연봉과 신발 사이즈 사이에는 양(positive)의 상관관계가 성립한다"

라 했다 치죠. 그냥 여기서 그쳤었다면 괜찮았겠거늘, 그 기자가 한 발 더 나아가 "이처럼 신발 사이즈가 크다라는 이유만으로 더 많은 연봉을 지급하고 있는 엉터리 S그룹에 과연 우리나라 경제를 이끌어간다라는 말을 할 수 있겠는가?"라며 "이런 재벌들을 과감히 개혁해야 한다!"라는 결론을 이끌어낸다라면, 그 기자에게는 당장! 그 직(職)을 내려놓는 권고가 주어져야 마땅합니다. 왜일까요?

S그룹에 '연봉과 신발 사이즈 사이에 양의 상관관계'가 존재하는 것이 사실이라 해도 그건 하나도 이상한 것이 아닙니다. 복잡하게 말할 것 없이, "남자들은 대개 여자들보다 발 사이즈가 크고 연봉도 더 높"(p73)기 때문이지요. 이처럼! --- A라는 사건(event)과 B라는 사건 간에 존재하는 '배경변수5'를 인지하지 못하여, A와 B간에 존재하는 상관관계를 자칫 인과관계로 오해하는 경우가 너무도 빈번하게 우리의 일상에서 발생되며, 때때로 그것이 언론에 오르기도, 심지어는 국가의 정책 결정에조차 영향을 미치게 된다라 이 책은 쓰고 있습니다.  


【 의도된 목적성 

위와 같은 통계/확률에 대한 이해의 부족은 그나마 의도적이지 않은 경우가 많(겠)지만 진짜 문제는 바로 --- "수치 앞에서는 한없이 약해지고"(p13)마는 우리의 약점(?)을 악용하여, 통계를 "현상을 미화하고, 허풍을 떨고, 대중을 호도하고, 현실을 조작하는 수단"(p13)으로 악용하는 경우이겠지요. 물론, 이러한 의도를 가지고 통계를 악용하는 이들에게 더 큰 문제가 있겠으나, 저자들은 그들의 그러한 목적을 알아채지 못하는/않으려는 이들 역시 그 책임으로부터 자유로울 수 없다라 말해주고 있습니다.6

우리들이 흔히 접하게 되는 '여론조사'의 경우를 함 보죠. 여론조사가 지닐 수 밖게 없는 근본적 문제점을 저자들은 다음과 같이 명쾌하게 설명해주고 있습니다. --- 롯데자이언츠가 3만 명의 관중들이 보는 앞에서 LG 트윈스를 20:0으로 박살내버린 (야호!!!) 경기 직후, 그날 사직구장에 있었던 3만 명 중 딱 한 명!만을 골라 그날의 경기가 어떠했느냐,를 물어본다 치죠. 그 딱 한 명이 저였었다면 당연히 최고의 경기력을 보여준 날이었다며 10점 만점을 주었을 테고, 같은 롯데팬이라 해도 한국 프로야구에서 롯데자이언츠같은 슈퍼강자가 홀로 존재하는 것이 그리 좋은 현상은 아니다라며 7점만 주는 혹자도 있을 수도, 또는 그 딱 한 명이 '알리오님'이셨었다면 LG의 패배에 눈물 흘리시며 0점을 주었을 수도 있을 겁니다. 이처럼 표본조사가 지니고 있는 한계는 비교적 명확하며, 그 한계는 널리 알려져 있고, 그 한계를 극복하려는 여론조사기관들의 기술적 대처 역시 나날이 발전하고 있는 것이 사실이기는 합니다만!!!


정치, 경제 사회 등 분야를 불문하고 모든 설문조사의 중심은 설문 대상자가 아니라 설문 의뢰자이다. …… 가장 명심해야 할 부분은 바로 모든 설문이 질문을 받는 우리가 아니라 질문을 제시하는 사람 위주로 돌아간다는 것이다!(p131)

부산의 지역신문 기자라면 당연히 홈팀 관중들이 드나드는 출입구 앞에 서서 그 날의 딱 한 명을 골라냈었을 것이고, LG 트윈스 담당 기자는 예의 원정팀 관중들이 드나드는 출입구에서 (아마도 가급적 눈이 벌겋게 부어있는) 그 날의 딱 한명을 골랐겠지요. 이렇듯 --- 조사자의 '의도된 목적성'은 3만 명이라는 모집단을 대상으로 하는 여론조사에서 얼마든지 자신의 입맛에 맞는 조사결과를 애초부터 만들어낼 수7 있는 겁니다. 더 큰 문제는,

이처럼 '의도된 목적성'을 가지고 행한 여론조사결과를 마치 전체 사회의 여론인 양 포장하여, 국가의 특정 정책 결정 방향을 자신들의 이익에 부합하도록 이끌어내려는 데 있다라 저자들은 주장합니다.  2010년 독일 실업급여의 문제점을 오도했던 한 신문 기사를 예로 들며 다음과 같이 분석하고 있지요.


빈곤층을 악의적으로 모함하는 정치가나 가난한 이들을 공격 대상으로 삼는 신문 기사들이 목적하는 바는 뻔하다. 경제적 상황을 불문하고 인권은 존중되어야 한다는 인식, 가진 것이 많은 이들이 연대의식을 발휘해 어려운 이들을 도와야 한다는 여론, 인권 수호와 연대의식이야말로 민주주의의 필수 요소라는 주장에 반기를 들고 싶은 것이다. … 어쩌면 그 뒤에 또 다른 음흉한 의도가 숨어 있을 수도 있다. … 중산층의 관심을 부유층이 아니라 빈곤층에게 돌리는 것이다.(pp216-217)

 

………………………………………………………………………

 

'대중 교양서'는 자고로 이렇게 쓰여져야 한다,의 최고치를 보여주고 있는, 쉽고도 재미있게 읽히는 통계에 관한 책이었습니다. (제가 배웠던 수준의) 통계학 교과서에선 배울 수 없었던 '윌-로저스 현상'이나 '심슨의 역설'등은 정말 재미있었고, 만약 그러한 위치에 처하게 된다면 꼭 한 번쯤은 써보게 될 듯한 '의도된 목적성'이 저도 모르게 심어지지 않았을까 싶기도 합니다.   


「통계의 거짓말」이란 책의 제목이 의미하고 있듯, 저자들은 (마치 마술계의 '타이거 마스크'처럼) 통계가 지니고 있는 수많은 속임수들과 그 뒤에 숨어 있는 동기들에 관해 설명해 주고 있습니다만, 예의 "모든 통계를 쓸모없는 것으로 치부하는 태도는 모든 통계를 곧이곧대로 믿는 것만큼이나 어리석다"(p271)란 말로 끝맺음을 하고 있지요. 비록 이 책에서 거론된 예들이 거의 모두 독일의 현실들 뿐인지라, 단번에 와닿지는 않았으나, <14장>에서처럼 일반화된 경우에선 그 어떤 책보다 직관적인 설명을 해주고 있기도 합니다.

​"타고난 지성은 거의 모든 수준의 교육을 대체할 수 있지만, 그 어떤 교육도 타고난 지성을 대체할 수는 없다."(p286)

 

 

저자들이 인용하고 있는 쇼펜하우어의 위 일성(一聲)이야말로 저자들이 이 책을 통해 독자들이 얻을 수 있는 무엇이 되기를 바라고 있는 것이 아닐까 싶습니다. 속임수를 까발렸으니 앞으로는 속지 않을 수 있어야겠고, 또한 자신들의 속임수가 까발려졌으니 속이려는 더 은밀한 수법들을 개발하려 하겠지요. 어쩜 그러한 순환이 이런 류의 책들이 반드시 개정판을 내어야 하는 이유일 지도 모르겠습니다. 이걸 선순환이라 해야할 지 아님 악순환이라 해야할 지 모르겠으나, 어쨌든 독자들에게 즐거운 일임엔 틀림 없을 듯. ^^ 

※ 다른 관점에서 설명되어지는 '확률의 함정' : 데이비드 핸드 著,신은 주사위 놀이를 하지 않는다



 


 

  1. 데이비드 핸드 著, 「신은 주사위 놀이를 하지 않는다」 중 p210, 더 퀘스트 刊, 2016.
  2. 이 책의 저자들은 '동시에'라는 표현을 사용하고 있습니다만, 좀 더 느슨하게 보아 굳이 '동시'가 아니더라도, 즉 두 사건 사이에 시차가 존재한다 할지라도 상관관계는 성립될 수 있습니다. 여기서 반드시 유의해야 할 점은 역시나! --- "A가 일어난 뒤부터 B라는 사실이 일어났다는 말 속에는 분명이 함정이 내포되어 있다. 시간적 순서가 맞아떨어진다 하더라도 A가 반드시 B의 원인이 되라는 법은 없기다!"(p73)
  3. "인과관계가 쌍방향으로 성립하는 경우를 두고 통계학자들은 '동등성equivalence'이라는 표현을 쓴다. A가 B의 원인이기도 하지만 B가 A의 원인이 되기도 한다는 뜻이다."(p64)
  4. "통계학자들의 주장에 따르면 전혀 상관없어 보이는 두 가지 변수를 조합할 경우에도 둘 사이에 상관관계가 성립될 확률이 5%는 된다고 한다. A때문에 B가 늘어나거나 줄어들 확률이 5%는 된다는 것이다."(p66)
  5. '배경변수'란 두 사건 모두에 영향을 미치는 변수를 말합니다. 이 예에서의 배경변수는 '성별'이지요.
  6. "숫자로 남을 속이는 가해자 중에는 선한 의도를 품은 사람보다는 부와 명예, 권력, 개인적 영달이 목적인 이들이 더 많다. 피해자 중에도 요즘 세상에 보기 드물게 순수하고 착해서 당하는 사람보다는 게을러서 혹은 편한 것만 추구해서 혹은 눈곱만큼의 비판도 없이 권위를 맹신한 탓에 속는 이들이 더 많다."(p241)
  7. 저자들은 ​여론조사기관 역시 '기업'이라는 점을 들어, 이러한 목적성이 존재할 수 밖에 없다라 서술하고 있습니다만, 이보다는 "통계란 주어진 데이터들에서 특정 명제를 이끌어내는 과정"(p221)이란 인식이 어쩌면 더 위험한 것이 아닐까 싶습니다.

 

 

 

 

 

 


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo