좋은 선택, 나쁜 선택 - 합리적인 선택을 위한 데이터 바로 읽기
최희탁 지음 / 한빛미디어 / 2019년 2월
평점 :
절판


 

회사나 학교에서 통계나 데이터들을 정책수립 혹은 가설검증의 객관적 증거로 많이 사용하고 있지만, 이런 통계들을 잘못 해석하게 되면 작성자의 생각이나 일방적인 의견을 포장해주는 역할밖에 못할 수도 있다.

우리가 흔히 사용하는 '평균'의 오류를 그 예로 보자.

야구선수 A, B가 있다고 하자. 2017년의 성적을 보면 B의 타율이 A보다 높았고, 2018년의 타율도 B가 A보다 좋았다. 그러면 최근 2년(2017년~2018년) 통산타율은 당연히 B가 높다고 생각할 것이다.

하지만, 아래의 예를 보자.

구분

2017년

2018년

통산 성적

안타/타수

타율

안타/타수

타율

안타/타수

타율

A선수

12/48

0.25

183/582

0.314

195/630

0.310

B선수

102/411

0.253

45/140

0.321

149/551

0.270

위 표를 보면, 2년 동안 연속으로 B선수가 A선수보다 타율이 높았지만, 2년간의 통산 타율은 A가 더 높은 걸 알 수 있다. 이것은 타석수의 불균형이 원인이 되어 각 년도의 성적으로 평가했던 결과와는 다른 평균값이 나오게 되는 것을 보여 주고 있다.

 

다시 말하면 우리가 흔히 보고서나 논문 등에 통계의 대표적인 값으로 흔히 사용되는 평균도 유의해서 보지 않으면 판단에 착오를 일으킬 수 있다는 통계의 허점을 잘 보여주고 있다.

 

또 다른 예로 만약 동전을 던져 앞뒷면을 선택해서 맞추는 게임을 생각해 보자.

총 6회를 던져서 5번 연속으로 앞면이 나온 경우에 6번째에서도 앞면이 나올 확률은 얼마나 될까?

 

그냥 생각하면 이미 5번 연속 앞면이 나온 확률은

(1/2)*(1/2)*(1/2)*(1/2)*(1/2) = 1/32

즉, 3.1% 밖에 안되는 희소한 경우이고,

여기서 한번 더 앞면이 나올 확률은 (1/32)*(1/2) = 1/64

즉, 1.6% 밖에 안된다고 생각하므로 당연히 98.4%의 확률로 뒷면이 나올거라고 생각할 수 있다.

 

하지만, 실제로는 5회 연속 앞면이 나온 상태에서 동전의 뒷면이 나올 확률도 앞면이 나올 확률과 동일하게 1/64 즉, 1.6% 밖에 안된다. 왜냐하면 이미 5회 연속으로 앞면이 나온 상태에서 6회째 동전을 던졌을 때 나오는 것은 앞면과 뒷면 즉, 1/2 확률이기 때문에 동일할 수 밖에 없는 것이다.

결국 이전에 몇 번의 앞면이 나온거와 상관없이 항상 동전의 앞면과 뒷면이 나올 확율은 동일하다는 것이다.

 

그럼에도 불구하고 상당수의 사람들은 이미 나온 결과를 감안하여 선택할 것이다.

이제는 뒷면이 나올때가 되었다고 생각하면서 뒷면은 선택하는 것이 사람들의 모습일 것이다.

 

"숫자는 거짓말을 하지 않는다. 하지만 거짓말쟁이는 숫자를 말한다"

 

숫자나 통계에 대한 객관성을 주관적으로 잘 만드는 두 조직이 있다면, 아마도 정치계와 언론일 것이다.

 

먼저 정치에서는 선거때 실시하는 여론 조사를 보면 그 이유를 알 수 있다,

정치계에서는 똑같은 후보들을 놓고 여당 지지세력이 주도한 설문조사 혹은 야당 지지세력이 주도한 설문조사 여부에 따라 그 결과가 판이하게 다르게 나오는 것을 우리는 익히 여러번 보아왔다. 때로는 동일한 숫자가 나온 결과도 분석내용은 완전히 반대방향으로 나오는 것에도 충분히 익숙해져 있다.

 

또한, 언론에서도 이런 통계의 왜곡을 적절하게 이용하고 있다.

대표적인 예가 최근에 매일같이 언론사에서 떠들어 대고 있는 부동산 관련 내용들이라고 할 수 있을 것이다.

서울의 아파트 가격이 2018년 한 해에만 무료 20%넘게 올랐는데도 최근 일부 언론들은 세금폭탄과 매매가격 하락만 줄기차게 기사로 가득채우고 있다.

 

오를때는 조용히 있던 A, B, C 같은 대표적 언론들이 매매가의 비정상적인 상승으로 인한 일시적 소폭 하락이 나오자마자 역전세난이니 매물폭탄이니 하면서 각종 통계로 기사들을 도배하고, 실제로 전국민에서 1%내외의 부동산 부자들만 해당되는 종합부동산세 등을 들고 나오면서 세금폭탄 등으로 국민들을 호도하고 있다.

 

읿부정치인들이나 언론에서 자기들이 주장하고 싶은 내용을 데이터와 통계라는 수단을 이용하여 객관적이고 과학적으로 신뢰할 만한 것으로 만들어 버리는 것이다.

위에서 언급한 것처럼 숫자는 거짓말을 하지 않지만, 거짓말을 포장하기에 숫자만큼 좋은 것도 없으니까..

 

따라서 우리가 통계와 데이터를 제대로 이용해서 합리적인 선택을 하고자 한다면, 저자가 결론내려 준 아래의 다섯가지를 필히 생각하고 접근해야 할 것으로 보인다.

 

1. 어떤 주장에 대해 그 논거가 일회적인 증거라면 그것에 의거하여 판단을 내리지 말 것.

   ( 동네 사람이 1등에 당첨된 로또방에 가서 사면 당첨확률이 높아질까? )

2. 숫자, 특히 통계 수치를 받아들일 때 복잡하고 길면 길수록 이것의 의미를 다시 한번 확인

   ( 과도하거나 아주 세밀만 숫자는 의심하지 말고 그냥 받아들이라는 강요아닌지? )

3. 표본조사로 모집단의 특성을 알아내는 통계학은 매우 유익하나, 사용되는 표본 추출은 매우 어려운 일

   ( 편향된 설문조사가 결과가 왜 나오는지, 그 원인은 표본에 있지 않은지? )

4. 통계나 데이터가 과거와 현재를 아무리 잘 설명해도 이것이 미래도 맞을 거라는 생각은 금물

   ( 금융위기는 예측되었던 사항인가? )

5. 사람이 하는 일이므로 주관자의 의도가 들어갔을 거라고 간주하고 접근

   ( 객관적일 거라고 생각하는 과학 논문의 실험결과도 원하지 않았던 일부의 결과는 배제한다는 사실 )

 


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo