통계의 미학 - 통계는 세상을 움직이는 과학이다
최제호 지음 / 동아시아 / 2007년 12월
평점 :
장바구니담기


속지말자, 화장발! 다시보자, 추론발!

 몇 년 전, 출구조사 아르바이트를 한 적이 있다. 출구조사란 대한민국의 모든 유권자(모집단)들 중에 여론조사 기관이 대표성이 있다고 본 투표권자들(표본)에게 어느 후보를 선택했는지 조사하는 일이다. 조사원으로서의 임무(?)에 대해 두어 시간의 교육을 받고 다음날 표본으로 지정된 어느 중학교로 이동했다. 정확히 내가 맡은 일은 투표권자들에게 설문조사─익명성은 완벽하게 보장되며 조사응답에 대한 작은 답례품도 드렸다.─를 한 뒤 그 데이터를 집계하여 조사 기관으로 전송하는 것이다. 놀라웠던 건, 알바를 마치고 집에 돌아와 TV를 보니 개표 상황이 내가 집계한 데이터와 거의 오차가 없었다는 점이다. 후보 순위는 물론이거니와 투표율 또한 거의 2~3%의 오차만 보였던 걸로 기억한다. 그다음부터 여론조사 기관을 꽤 신뢰하게 되었고 선거철 개표 결과도 유심히 살펴보게 되었다.    

 하지만 그것도 잠시 뿐, 내게 통계는 여전히 어려운 학문이었다. 완벽한 공리 위에서 철학적 사색을 향유하며 논리적 증명을 펼치는 '수학적 사고'와 우연에 의해서 지배되는 어떤 사건이 일어날 가능성을 수값으로 나타낸 것을 분석하는 '확률적 사고'의 대응점을 찾지 못한 것이다. 오죽했으면 전공이 '수학'임에도 불구하고, 전공선택의 통계 관련 강의들에게는 눈길조차 안 주었으랴. 같은 건물을 쓰고 있는 통계학과 친구들을 경이로운 눈으로 바라보며 '통계학과'가 따로 생길 만큼 '통계'와 '수학'은 조금 상이한 학문일 것이라는 비겁한 속임수로 애써 나 자신을 위로했다. 

 그러다 우연히 최제호씨가 쓴 『통계의 미학』이란 책을 발견했다. 제목보다 부제로 보이는 '통계는 세상을 움직이는 과학이다'라는 문장이 참 마음에 들었다. 그래, 통계는 수학보다 과학 쪽에 더 근접한 학문인 거야! 미소가 지어졌다. 내 비겁한 속임수가 완전히 '틀린' 것은 아니구나,하는 생각에……. 일단 관심이 가는 책이었으나 그동안의 '통계'에 대한 막연한 거부감 때문에 무턱대고 구매하기가 두려워서 일단 도서관에서 빌려왔다.

 책 날개를 펼치자 눈에 들어온 저자 최제호씨의 경력은 화려했다. 그는 서울대 계산통계학과를 졸업하고 삼성, POSCO, KT등의 대기업에서 통계에 대한 교육과 프로젝트를 진행해 온 통계학 박사였다. 그동안의 통계 교육 경험과 현장 경험을 바탕으로 일반인들을 대상으로 통계적 사고 능력을 증진시키기 위해 이 책을 썼다고 한다. 그래서인지 책 전반에 흐르고 있는 분위기는 어렵고 복잡한 수식보다 다양한 사례들을 위주로 통계의 원리와 용어를 설명하는데 초점이 맞춰져 있다. 

 하지만 전반적으로 다루고 있는 내용이 내게는 평이한 감이 없진 않았다. 통계의 <기본서>라기 보다는 <입문서>에 가까운 느낌이었다. 자신의 경험담까지 내세우며 '산포'의 중요성에 대해 1/4의 지면을 할애한 저자는, 정작 자신이 '일반인들의 통계적 사고 능력의 산포'를 고려하지 않은 사실을 잊은 것 같다. 덕분에 중,고등학교의 확률과 통계를 익힌 수준의 독자라면 이 책의 내용을 충분히 이해할 수 있을 것 같다.

 책은 크게 4부로 구성되어 있다. 보통 통계 관련 책들은 확률 분포에 대한 소개가 먼저 나오기 마련인데 이 책은 통계의 기본 바탕이 되는 데이터의 선정과 해석에 대해 먼저 설명하고 있다. 중요도와 난이도 활용면을 고려한 저자의 세심한 배려가 엿보인다. 인용된 사례의 대부분은 저자가 책을 쓸 당시인 2007년도에는 최신 자료들이었겠지만 지금은 좀 빛이 바래서 그 당시를 회상하며 읽는 재미도 있다. 정치, 경제, 사회, 법률, 생명공학, 스포츠 등의 다양한 분야에 걸친 사례들은 저자의 박학한 지식에 놀람과 동시에 통계가 이렇게 우리 일상생활에서 다방면으로 쓰인다는 사실에 경외감이 느껴졌다.  

 앞에서도 언급했다시피 1, 2부는 확률의 기저가 되는 데이터 수집의 중요성과 데이터들이 갖는 다양성의 이해에 대해 다룬다. 어차피 두 챕터(Chapter) 모두 데이터에 대해서 다루고 있고 유기적인 흐름을 이해하는 게 중요하기 때문에 딱히 구분을 지을 필요는 없는 것 같다. 모집단에서 전체를 대표하는 표본 선정의 중요성과 표본 대상이 가지는 다양성의 이해에 대해 논리적인 분석 위에서 그 주장의 타당성을 부여하고 있다. 특히 1부에서 나오는 선거에 이용되는 국내·외 여론조사의 사례들을 통해 잠시나마 통계에 흥미를 느끼게 해준 출구조사 아르바이트가 떠올라 잠시 묘한 감상에 젖었다. 저자의 염려와 달리 중도에 포기하지 않고 이 부분까지 다 읽은 독자라면, 2부 마지막에 나오는 '통계가 거짓말을 하는 것이 아니라 숫자 계산에 대한 무지 또는 오용이 거지말 통계를 만들어 낸다.'는 저자의 말에 절로 고개를 끄덕이고 있는 자신과 마주하게 될 것이다.  

 3부는 앞에서 선정하고 요약한 데이터를 가지고 적절히 구분하고 비교한 결과를 가지고 인과관계를 설명하고 추론하는 방법을 다룬다. 결과를 설명하는 원인에 해당하는 '변수'와 이를 계량화한 '결정계수'의 정의와 중요성에 대해 새삼 깨닫게 된다. 아무리 '객관성'과 '사실성'에 근거한 통계와 데이터라 할지라도 그것을 분석하는 주체의 이해관계나 통계적 사고의 결여가 개입되면 전혀 엉뚱한 결과를 낳게 되는 것이다. 방송이나 신문사가 통계적 사고에 어두운 시민들을 상대로 내놓은 유의성이 결여된 결과에 대한 보도들은 그야말로 충격이 아닐 수 없었다. 그것은 마치 나비현상을 연상케 하는 끔찍한 공포였다. 이제는 외쳐야 한다. 속지말자, 화장발! 다시보자, 추론발! 

4부는 정보와 인과관계에 대한 가설 조합으로 상황 판단하는 법에 대한 가설 조합으로 상황 판단하는 법을 다룬다. 지금까지 다뤄왔던 개념들을 총망라하여 불확실성이 존재하는 상황에서의 확률을 활용하는 예들을 보여줌으로써 가장 실용적인 통계의 모습을 소개한다. 몬티 홀 TV쇼의 확률 문제나 러시안 룰렛 게임, 야구 감독의 통계적 사고 같은 사례들은 통계적 사고력의 필요성을 정점으로 치닫게 한다. 개인적으론 마지막 4부를 읽는 시간이 가장 즐거웠다. 어느새 통계 이야기에 푹 빠져있다보면 마지막 장과 마주했을 때 통계 강의가 끝난 아쉬움에 한동안 나처럼 패닉 상태에 빠지게 될지도 모르겠다.

 책을 읽다보면 저자의 '통계'에 대한 열정과 사랑을 책 곳곳에서 느낄 수 있을 것이다. 그와 더불어 데이터 자료─그가 그토록 중요시했던 ─의 오류와 오탈자도 비교적 많이 눈에 띈다. 작가의 논지에 대한 신뢰성까지 의심될 정도는 아니었지만 가독성을 떨어뜨리고 집중력을 흐트러뜨린다는 점에서 참 아쉬운 일이다. 만점 주고 싶었지만 평점의 별을 하나 뺀 건 그 이유다. 내가 읽은 책은 2007년에 인쇄된 초판 2쇄본이라 지금은 전부 수정되었을지도 모르겠다. 

 요즘 같은 정보의 시대에 자료 선정 방법과 활용 능력이 부족하면 남이 내놓은 유의성이 결여된 결과를 무비판적으로 섭취하기 쉽상이다. 그렇게 되면 통계적 사고가 가능한 사람들과 그렇지 못한 사람들 사이에 형성될 피·지배 관계는 어찌보면 자명한 일이다. 무엇보다도 '통계적 사고'가 시급한 때다. 이 책은 통계는 무조건 어렵다는 이유만으로 기피하던 사람들(나를 포함하여;)의 선입견을 없애고 '통계적 사고'의 좋은 길라잡이가 되어 줄 것이다. 책이 안내하는 통계의 길을 따라가며 당신도 나도 부디 눈 뜬 숫자맹인이 되지 않길 진심으로 희망한다.


이 책에서 나오는 사소하지만 중요한 오류들! 


오류1.  '삼성 라이온즈'와 '두산 베어스'의 Q3값은 각각 14,000만원과 6,750만원으로 엄연히 다르다. 책 중간 부분의 부연 설명에서도 볼 수 있듯이 '왼쪽의 Q3 자체 값이 오른쪽에 비해 더 크다(상자의 윗선).'라고 명백히 표기하고 있다. 하지만 상자그림(Box-plot)에서는 '삼성 라이온즈'나 '두산 베어즈'가 모두 같은 Q3값을 같고 있다. <상자그림2>의 '두산 베어즈'의 Q3값 즉, 상자의 윗선을 6,750만원으로 수정해야 할 것이다. (116p)


 


오류2.   각 학과별 합격률이 C. D, E 학과의 경우에는 남자가 더 우세하다고 하지만 사진에서 보다시피 D학과의 경우에는 여자의 합격률이 더 우세하다. 따라서 D학과의 남자-합격률을 여자-합격률보다 우세하게 수정하든가 D학과를 여자가 합격률이 높다고 설명해야 할 것이다.

또한  파란색 박스의 남자-지원자, 여자-지원자, 남자-합격자, 여자-합격자의 총합 계산이 전부 틀렸다. 총합의 값이 위에서부터 2691, 1835, 1400, 772로 수정되어야 한다. (144p)


 


오류3.  왼쪽 페이지에 치료약의 환자 치료율을 계산하는 방법에 대해 '7명 이상이 될 확률을 계산해보면 1-(6명 이하로 치료될 확률)=1-0.8281=17.19%이다'라고 명시되어 있다. 이 방법대로 계산을 해보면, 

이 약을 사용하여 10명 중 8명 이상이 치료될 확률은 1-(7명 이하로 치료될 확률)=1-0.9453=6.47%,

 약을 사용하여 10명 중 9명 이상이 치료될 확률은 1-(8명 이하로 치료될 확률)=1-0.9893=1.07%가 된다. 따라서 파란 형광펜이 칠해진 부분 중 0.1%라는 수치는 1.07%로 정정되어야 한다. 같은 오류를 범한 이 뒷장에 나오는 동전 던지기 부분도 다 수정되어야 한다. (284~285pp)


댓글(0) 먼댓글(0) 좋아요(22)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo