벌거벗은 통계학
찰스 윌런 지음, 김명철 옮김 / 책읽는수요일 / 2013년 10월
평점 :
장바구니담기



난 예능 계열이었다. 문과와 이과 중 문과에 속했고. 한 마디로 나는 수학에 완전히 젬병이었다. 수학이 싫어 문과를 간 것은 아니었지만 수학은 아예 보지도 않았다. 그저 한 번호로 찍고 잠 잘 정도였다. 그런 내가 지금은 숫자를 갖고 이야기를 한다. 솔직히 숫자 갖고 이야기하는 걸 좋아하지 않는다. 오히려 싫어한다. 이런 이야기를 하면 사람들이 놀라기도 한다. 내가 당황한다. 무엇보다 통계 관련된 것은 피할 수 없다.


굳이 이야기하면 난 대략 그렇다는 걸 더 선호한다. 어차피 정확하게 숫자를 맞추는 것은 무리다. 비슷하면 된다. 이건 어디까지나 내가 선호하는 방법이다. 통계라고 해서 정확하진 않다. 그 언저리에 있는 걸 참고할 뿐이다. 여기서 사람들이 실수하는 것은 통계를 전적으로 믿는다는 거다. 다양한 통계는 하나의 의견일 수 있다. 그건 과학도 아니다. 내가 숫자를 활용하고 통계를 이용해서 사람들에게 보여주는 이유는 하나다.


나 혼자 하는 것이라면 굳이 정밀하거나 정확할 필요는 없다. 어림짐작만으로도 충분하다. 큰 틀에서 간다면 난 된다는 입장이다. 다만 난 사람들에게 무엇인가를 설명하고 이야기하는 상태다. 어쩔 수 없이 남들에게 주장하는 근거가 있어야 한다. 균형잡힌 시선으로 무엇인가 이야기하려다보니 통계 등을 활용하여 설명한다. 물론 아주 잘 알고 있다. 사람들은 이렇게 무엇인가 주장하는 것보다는 그저 썰을 풀어내는 걸 더 선호한다.


아쉽게도 내가 그 쪽 분야를 잘 모르고 아는 것이 적다보니 나름 노력은 하지만 부족한 것 투성이다. 그 덕분에 관련 글을 써도 늘 스스로 혹시 틀린 것은 없는지 불안하다. 통계는 갈수록 중요해지고 있다. 무엇보다 너무 많은 데이터가 넘쳐난다. 데이터를 어떻게 볼 지 아는 것이 훨씬 더 중요해졌다. 굳이 내가 데이터를 만들려고 노력할 필요가 없을 정도다. 수많은 사람들이 데이터를 만들어 세상에 선보인다. 넘쳐나는 데이터가 어떤 의미를 내포하는지 아는 것이 더 중요해졌다.


그동안 여러 통계 관련 책을 읽었다. 그때마다 분명히 무엇인가 하나씩 얻는 것이 있었다. 이번에 읽은 <벌거벗은 통계학>은 데이터를 보는 법도 법이지만 그보다는 더 기초적인 용어와 설명을 읽었다. 데이터를 볼 때 좀 더 이해하며 읽을 수 있는데 도움되었다. 무엇보다 데이터를 볼 때 무엇을 중요하게 여기고 봐야 할 지 알게 되었다. 그게 중요하다. 내가 데이터를 만들 수 있진 않다. 내가 할 수 있는 최선은 데이터가 의미하는 바를 파악하는 건인데 그걸 설명하는 책이다.

예전에는 평균을 많이 사용했는데 지금은 중앙값도 중요하게 여긴다. 평균은 편차를 제대로 반영하지 못한다. 그 때에 중앙값은 보다 균형적일 때가 많다. 물론 중앙값도 편차가 너무 심하면 왜곡된다. 이럴 때 표준편차가 도움 된다. 데이터가 평균에서 얼마나 퍼져있는지 아는데 참고가 된다. 대부분 데이터에서 관찰된 것은 평균과 표준편차 범위 내에 있기 때문이다. 여기서 정규분포는 중앙에 많이 있고 극단으로 갈수록 적은거다.


예전에 쓸 때 크게 실수했던 퍼센트와 퍼센트포인트가 있다. 이건 어떻게 표현하느냐에 따라 엄청난 차이를 보인다. 특정 의도를 갖고 표현하면 모르는 사람에겐 큰 왜곡도 불러일으킨다. 퍼센트는 백분율 변화이고 퍼센트포인트는 절대적 변화이다. 같은 뜻을 두고도 어떻게 표현하느냐에 따라 달리 보인다. 그렇기에 통계 용어를 잘 알아야만 한다. 여기에 정확과 정밀이라는 표현도 있다. 같은 의미로 느껴지지만 다르다.


정확은 어떤 수치가 진실과 전반적으로 얼마나 일치하는지를 재는 척도이고 정밀은 무엇인가 얼마나 정교하게 표현하는지를 의미한다. 정밀하다고 정확한 것은 아니다. 한 마디로 정확하려면 정밀성이 높아야 한다. 그렇다고 정밀해져도 부정확한 것이 정확해지지는 않는다. 확률은 불확실성이라는 요소가 수반되는 사건과 그 결과에 대한 학문이다. 확률은 여러 면에서 판단에 도움이 된다. 확률이 높다, 낮다라는 표현처럼 말이다. 이 확률은 확률을 사용하는 사람이 실수하거나 거짓말로 이용하기도 한다.


중심극한정리가 있다. 229페이지에 이렇게 나온다.

중심극한정리는 표본을 이용해 크기가 큰 모집단을 추론하는 수많은 통계 활동, 즉 여론조사, 살모넬라 검사 등의 '원동력'이다. 이런 추론이 신기해 보일 수도 있지만, 사실은 앞서 살펴보았던 확률과 적절한 표본추출이라는 두 도구의 조합에 불과하다. 이건 규모가 크고 적절히 추출된 표본이 모 집단과 유사하다. 표현이 어려운데 한 마디로 비슷한 놈끼리 크게 모여있다. 이걸 굳이 통계적으로 숫자적으로 보지 않아도 직관적으로 이해하게 된다. 대부분 우리가 사는 사회가 그렇다. 이걸 근거로 구분하게 된다.


통계는 그렇다고 사실을 확실히 입증하는 것은 아니다. 통계는 내가 생각한 추론을 입증하는 것이 아니다. 어떤 패턴이나 결과를 관찰한 후에 확률을 이용해서 가장 그럴싸한 이유를 찾아내는거다. 책은 굳이 내가 알아야 할 필요가 있을까하는 깊은 내용도 담고 있다. 그래도 읽으며 중요한 개념과 용어만 잘 알아도 큰 도움이 된다. 우리는 갈수록 통계를 알아야만 한다. 몰라도 사는 데 지장은 없다. 다만, 당신은 그로 인해 나도 모르게 당한다. 좋으면 몰라도 된다.


까칠한 핑크팬더의 한 마디 : 그래도 모르겠다.

친절한 핑크팬더의 한 마디 : 아주 조금은 알겠다.


함께 읽을 책

https://blog.naver.com/ljb1202/220356061224

왜 전문가들은 금융위기를 몰랐나? - 신호와 소음


https://blog.naver.com/ljb1202/220401979406

통계의 힘 - 빅 데이터를 지배하는


https://blog.naver.com/ljb1202/220390424176

세상에서 가장 쉬운 통계학 입문 - 나에겐 어렵다




댓글(0) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo