매년 9월 1일은 통계의 날이다. 통계의 중요성을 홍보하기 위해 제정된 날로, 통계는 이미 과학 분야는 물론 정치, 경제, 사회, 문화 등 각종 분야에서 중요한 자료로 사용되고 있다. 하지만 통계는 변수에 따라 그 값이 크게 달라질 수 있고 자칫 조그마한 실수로 오류가 나기 쉬운 분야다. 통계적 분석을 할 때는 표본을 어떻게 수집하느냐에 따라 결론이 달라지기도 한다.
“여성들이여, 그대들의 남편을 조심하라. 살해당한 모든 여성의 절반은 자신의 남편이나 애인에 의해 희생당했다.” - <런던타임즈>
이 글은 살해당한 여성들의 가해자를 통계자료로 분석한 결과, 절반 이상이 자신의 남편이나 애인에 의해 살해당했다는 수치를 보고 보도된 기사다. 때문에 모르는 사람보다 사랑하는 사람이 당신을 살해할 가능성이 더 높다고 결론을 내고 있다. 하지만 이는 숫자만 보고 판단한 대표적인 통계의 오류다.
남편이나 애인이 있는 여성들은 이들과 보내는 시간이 타인과 보내는 시간보다 많은 편이다. 밤보다 낮에 교통사고가 더 많이 발생하는 이유와 비슷하다. 통계 자료 수치를 보면 밤 시간에 일어난 교통사고보다 낮 시간에 일어난 교통사고가 더 많다. 이 역시 단순 비교를 통해 통계를 해석했을 때 발생하는 오류로 볼 수 있다. 낮 시간의 교통사고가 상대적으로 많은 까닭은 밤 시간보다 낮 시간에 운전하는 사람들이 더 많기 때문이다.
국내 이혼율에서도 대표적인 통계의 오류를 찾을 수 있다. 2002년 국내 이혼율이 47.4%를 기록했다는 통계자료가 발표돼 논란이 일었다. 이 수치대로라면 국내 부부 두 쌍 중 한 쌍이 이혼을 한다는 뜻이다. 하지만 이는 곧 통계 오류임이 밝혀졌다. 특정 연도에 이혼한 부부의 수를 동일한 연도에 결혼한 부부의 수로 단순히 나눈 수치였던 것이다. 결혼한 부부의 수는 특정 연도에만 해당하지만, 이혼한 부부의 수는 그 이전에 결혼한 경우가 대부분이다. 이를 간과하고 특정 연도만 따질 경우, 결혼한 부부보다 이혼한 부부가 더 많을 수 있어 결혼이 적은 해는 이혼율이 100% 이상이 될 수도 있다.
이런 ‘통계의 오류’라는 허점을 이용해 통계 결과를 의도적으로 조작하기도 한다. 정부예산이나 기업실적, 경제전망 등은 기간과 변수를 어떻게 설정하느냐에 따라 전혀 다른 결과를 이끌어낼 수 있다. 선거를 앞둔 정치인의 지지율은 조사방법과 표본 설정, 질문 내용에 따라 10%에서 90%까지 끌어낼 수 있다.
대통령 선거를 앞두고 전화 설문 조사를 통해 각 후보들의 지지도를 산출하는데, 여기에도 오류가 숨어있다. 전화를 받는 사람은 자신이 좋아하는 후보를 말하지만, 정작 전화를 받은 사람들의 투표율은 100%가 아니다. 오히려 투표를 하지 않는 경우가 더 많기도 하다.
통계 오류로 인해 돌이킬 수 없는 사건이 발생하기도 했다. 1986년 1월 28일 미국 우주왕복선 챌린저호가 발사된 지 73초 만에 폭발해 우주비행사 7명이 전원 숨지는 사고가 발생했다. 이 처참한 광경은 TV를 통해 전 세계로 생중계돼 많은 사람들이 큰 충격을 받았다. 폭발 사고의 진상을 밝히던 조사팀은 발사할 때 사용되는 고체로켓 모터의 접합부위에 이상이 있음을 발견했는데, 이 사건 뒤에는 ‘표본 선택 편의’라는 통계적 오류가 숨겨져 있었다. ‘표본 선택 편의’는 전체를 아우르지 못하는 표본을 선정해 발생하는 잘못된 결과를 가리키는 통계학 용어다.
챌린저호 발사 전날 밤, 일부 관계자들은 고체로켓 모터의 접합부위를 염려해 우주왕복선 발사를 연기해야 한다고 주장했다. 우주왕복선이 이륙하기 위해서는 두 개의 고체로켓 모터가 필요한데, 로켓 모터를 각각 네 부분으로 분해해 케네디우주센터로 옮긴 뒤 다시 조립해 로켓 동체에 연결했다. 발사 당일의 기온은 섭씨 영하 0.56도로, 과거 기록상 최저 기온이었던 11.7도보다 12도 이상 낮았다. 일부 관계자들은 낮은 온도로 인해 로켓 모터와 동체의 접합에 이상이 발생할지 모른다고 우려했다. 실제 1985년 1월 24일에 발사된 우주왕복선 자료를 근거로 자신들의 주장을 뒷받침했다. 과거 기록상 최저 기온(11.7℃)이었던 이날의 발사는 비록 성공적이었지만 기록상 가장 많은 3곳에서 접합 이상이 발견됐던 것이다.
반면 발사를 강행하자고 주장한 사람들은 과거에 발견된 접합 이상의 수와 기온을 나타낸 그래프를 제시했다. 하지만 이 그래프는 기온과 접합 이상 사이의 관계를 명확하게 보여주지 못했다. 특히 문제가 되는 1985년 1월 24일의 발사 자료를 빼고 본다면 오히려 기온이 낮을수록 접합 이상은 감소하는 것처럼 보였다. 결국 발사를 강행하기로 결론을 내렸다.
알고 보니 논쟁에 참여한 이들은 접합 이상이 전혀 발견되지 않았던 발사자료를 포함하지 않았다. 이 자료를 포함해 접합 이상의 수와 기온의 관계를 그래프로 나타내면 명확한 추세를 발견할 수 있다. 즉 온도가 낮아지면 접합이상이 증가한다는 상관관계가 나타나는 것이다. 이를 간과하지 않았다면 처참한 사고를 막을 수 있었을 것이다.
이제까지 다양한 통계의 오류들을 살펴봤다. 하지만 여기서 정확히 짚고 넘어가야 할 사실은 통계가 잘못된 것이 아니라 통계를 해석하는 과정이 잘못된 것이라는 점이다. 누구나 오류를 범할 수 있지만, 의도적인 조작을 통해 통계의 결과를 바꾸는 경우는 지양해야 할 것이다. 또 기간과 변수, 표본 설정 등을 정확히 하고 문항에 맞는 세부 요소들을 고려해 통계를 산출해야 할 것이다.
글 : 심우 과학칼럼니스트
추러 : 과학향기