<How to lie with statistics>란 원제가 재미있다. 이 책을 읽어야 할지 고민하는 독자는 아래 수정된 기사로 ‘Lie’을 바로 파악할 수 있다면 굳이 권하고 싶지 않다. 

 

난이도 1: 낮 시간대 음주 단속 강화
19일 OO지방경찰청은 음주운전 교통사고가 증가하는 행락철을 맞아 오는 6월까지 음주운전 집중·확대 단속에 나서기로 했다고 밝혔다. 경찰은 단속 확대 이유에 대해 올해 1~4월 발생한 음주 사망자가 13명으로 지난해 같은 기간 음주 사망자인 6명에 비해 117% 증가했기 때문이라고 밝혔다.
경찰은 19일 두 시간 동안 모두 17건의 음주 운전자를 단속해 6명을 불구속 입건했다고 밝혔다.(매일경제, '15. 5. 21 기사 변형)

 

난이도 2: 나른한 봄 장시간 운전 금물
3∼5월 따뜻한 날씨로 졸음운전과 피로운전 때문에 교통사고가 평상시보다 크게 증가해 각별한 주의가 필요하다. 공단에 따르면 지난 2013년 기준 3∼5월 월평균 교통사고 발생 건수는 1만8394건으로 월평균(1만7946건)보다 2.5%, 1∼2월 평균(1만5102건)보다는 21.8%나 급증했다.
이처럼 봄철 교통사고가 급증한 것은 운전자의 졸음운전으로 3명 이상 사망자나 20명 이상 부상자가 발생하는 대형 교통사고가 집중됐기 때문으로 분석됐다. (디지털타임즈, '15. 5. 27. 기사 일부)

 

난이도 3: "더위보다 추위에 사망률 더 높아" 27년간 사망원인 분석결과
영국 런던대학 위생·열대의학대학원의 안토니오 가스파리니 교수 연구팀은 1985년부터 2012년까지 전 세계 13개국 7,400만 명의 사망 원인을 분석한 결과를 더운 날보다 추운 날씨에 사망률이 20배가량 높은 것으로 나타났다.
추위에 의한 사망은 전체 사망의 7.29%지만 더위에 의한 사망은 0.42%에 불과했다. 연구팀은 기온이 높으면 심장과 혈액순환에 부담을 주고 반대로 기온이 낮으면 기관지와 폐에 문제가 생기고 면역체계 역시 약화된다고 말했다.(아시아투데이, '15. 5. 26. 기사 일부)

 

난이도 4: 사망률 60% 낮춘 폐암 치료제 시판
OO 연구팀은 연구 대상자를 면역세포 치료군(200명)과 1차 치료 후 특별한 추가치료를 받지 않은 대조군(200명)으로 나누고 총 60주간(1년 3개월) 추적, 관찰하며 각 군의 재발률과 사망률을 조사했다.
그 결과 1차 치료 후 암이 재발하지 않고 생존하는 기간이 대조군은 30개월에 그친 반면 면역세포 치료군은 평균 44개월에 이른 것으로 확인됐다. 면역세포 치료군은 재발률과 사망률 역시 대조군보다 각각 20%, 60% 낮은 것으로 확인됐다.(중앙일보, '15. 5. 28. 기사 변형)

 

 

통계 결과만 접하는 대중은 조사 및 실험 과정을 알 수 없어 사실상 검증할 방법이 없다. 저자는 항상 좀 삐딱하게 ‘색안경’을 쓰고 유의해야 한다고 말한다. 몇 가지 팁이다.


 

○  상식에 벗어나면 일단 의심한다.

 

○  숫자 제시로 정확하다는 느낌을 주려는 모든 기사는 의심한다. 1원 단위, 소수점까지 제시하는 숫자, 특히 백분율에 소수점이 있는 숫자는 진짜 현실일 수 없다.


○  자료가 평균을 제시할 경우 측정 대상이 정규분포에 해당하는지 확인한다. 대표적인 예로 사람 키는 정규분포로 산술평균값, 중앙값, 최빈값이 일치한다. 하지만 소득수준이나 연봉은 정규분포를 따르지 않는다. 이럴 경우 화자 의도에 따라 평균 선택이 달라진다.

 

○  백분위수는 유의한다. “백분위수가 99인 학생은 틀림없이 90인 학생보다는 훨씬 우수하지만, 백분위수가 60인 학생은 40인 학생과 별 차이 없다. 세상 이치가 많은 경우 평균값으로 수렴하는 정규분포이기 때문이다.”


 

○  퍼센트의 합산을 의미하는 자료는 유의한다. “50%+20% 세일”이란 광고는 70% 세일로 착각된다. 일단 50% 할인 후 다시 20% 할인이라 사실 60% 세일이다.


 

○  누가 통계를 발표했는지, 통계로 누가 이득을 보는지 항상 생각한다.


 

○  사생활과 관련된 설문 통계 조사, 예를 들면 하루 수면 시간과 양치 횟수, 성 경험 등은 이미 조사 과정에서 크게 왜곡된다. “사람도 잠을 자는구나” 정도로만 받아들인다.


○  물리학에는 완벽한 상관관계가 많다. 반면에 경영학이나 사회학 또는 의학 분야에서는 이런 이상적인 경우는 거의 일어나지 않는다. 특히 상관관계를 인과관계로 착각해 어떤 행동의 의사 결정에 사용할 때 신중해야 한다.


 

○  두 요소가 상관관계가 높다고 해도, 원인은 제3의 요인일 경우가 많다. ‘산불 횟수와 아이스크림 판매량’의 상관관계는 매우 높다. 우리는 제3 원인이 무엇인지 잘 알고 있다. 하지만 기사에서는 흔히 산불이 아이스크림 판매 원인이라고 말한다.


 

○  통계 결과의 흔한 속임수는 정확한 기준이 없는 경우다. 흔히 대조군을 기준으로 착각하게 한다. 대조군만으로 부족하다. 실험하지 않은 체 두 집단 변화 비교 제시가 효과를 더 정확하게 설명한다.


 

○  우리가 미래를 예측하기 위해 과거를 기반으로 회기분석 등 외삽(外揷)하지 않을 수 없지만, 외삽은 미래 구조적 변화를 반영하지 못한다는 것을 항상 기억한다.

 

 

 

빌 게이츠는 정말 부지런하다. 지난달 벌써 올해 여름 휴가철에서 읽을 책 7권을 추천했다. 이 책도 그중 하나다. 예전 그가 추천한 <경영의 모험>을 워낙 재미있게 읽어 앞으론 그의 추천서를 빠뜨리지 않을 계획이다.

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


댓글(4) 먼댓글(0) 좋아요(4)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
책을베고자는남자 2015-06-02 18:10   좋아요 0 | 댓글달기 | URL
통계자체는 객관적인 숫자지만 결과는 조작의 의심에서 벗어날수 없는 마법의 상자? 내가 꺼내고 싶은 것만 고를 수 있는..

북다이제스터 2015-06-02 19:54   좋아요 0 | URL
네 그런 거 같아요. 입맛대로 쓸수 있는...

cyrus 2015-06-02 21:19   좋아요 0 | 댓글달기 | URL
만약에 수학을 다시 공부한다면 통계부터 시작하고 싶습니다.

북다이제스터 2015-06-02 21:31   좋아요 0 | URL
네 깊이 공감합니다. 전 수학과 통계 못해서 문과 간게 넘 아쉬워요. (그렇다고 문과가 싫은 건 아니예요 ㅋㅋ) 요즘 수학책 사 놓았습니다. 미적분부터 다시 시작해 보려구요. ㅎㅎ