-
-
나를 위한 최소한의 통계 읽기 - 빅데이터 시대 데이터 문해력 향상 프로젝트
앨버트 러더퍼드 지음, 장영재 옮김 / 북스힐 / 2024년 11월
평점 :
* 네이버 책과 콩나무 카페 서평단 자격으로 작성한 리뷰입니다.
통계를 읽는 법
빅데이터 기술과 생성형 AI의 출현으로 넘쳐나는 데이터 속에서 제대로 된 정보 찾기는 “풍요 속의 빈곤”이요, “모래밭에서 바늘 찾기”만큼 곤란 지경이다. 지은이 앨버트 러더퍼드의 이 책<나를 위한 최소한의 통계 읽기>은 빅데이터 시대의 데이터 문해력 향상 프로젝트다. 고사 가운데 “안광지배철(眼光紙背徹)” 즉, "눈빛이 종이의 뒤까지 꿰뚫어 본다"라는 뜻으로, 독서의 이해력이 날카롭고 깊음을 상징한다. 깊이 있는 해석력을 지닌 독서인의 상이다. 그저 종이 한 장을 훑어보는 것이 아니라, 그 뒤에 숨겨진 본질까지 꿰뚫어 보는 독서의 이해력을 갖추어야 함을 말한다. 데이터 문해력 또한 바로 안광지배철이 되어야 한다.
지은이는 이 책이 필요한 이유로 권위가 있는 누가 한 말이니 정설이며, 사실이자 진실일 것이라고 속단하지 말라는 것이다. 역사 이래로 수많은 언설은 나름대로 포장된 형태로 우리에게 전해져 온 것이다. 꽤 괜찮고 믿을만한 과학 저널에 실린 기사가 가짜뉴스라면, 뭐가 의도를 가지고 조작한 것이라면, 알아채기 어려울 듯하다. 그렇다고 무조건 의심하라는 이야기는 아니지만, 적어도 문해력, 그중에서도 TV 뉴스 기사의 형태로 나오는 광고, 여기서 00%는 실험 결과 얻은 데이터라고, 진짜 맞나, 결론은 맞다. 그런데 뭘 넣고, 빼고 하는 중간 과정이 생략된 상태까지 우리는 깊숙한 정보를 모르기에 그저 거짓인데 광고하고 선전하겠어라고 자신이 믿고 싶은 대로 믿는 것이다.
똑똑한 사람들이 사기를 잘 당하는 이유도 바로 이런 심리적 작용 때문이다. 이 책은 우리가 몇 가지 통계의 기초적인 내용만 알아도 참인지 거짓인지 구별할 수 있다고 말한다. 구성은 10장 체재이고, 내용은 이 책이 필요한 이유를 시작으로 데이터 문해력이 무엇인지 대체로 문해력은 이는 정보로서 데이터를 읽고, 이해하고, 창조하고 전달하는 능력, 데이터에서 의미를 찾아내는 기술, 사고방식과 데이터를 효과적으로 이해하고 전달하는 능력이라 할 수 있다. 이를 기르기 위해서는 어떻게 해야 하는가가 2장에서 10장까지 이어진다. 통계분석의 기초, 데이터의 수집과 해석, 통계적 사고, 실생활에 적용되는 통계, 시각적 표현, 통계의 잘못된 해석(5가지 일반 함정), 데이터 조작과 도표의 힘 순으로 담겨있다.
이 책과 비슷한 맥락에서 통계에 관한 문제점은 지적돼왔다. 1954년의 데릴 허프 책<새빨간 거짓말, 통계>(더불어책, 2004) 은 통계로 사기 치는 것을 발견하는 방법을, 이와 같은 맥락의 수학자 앙투안 울루 가르시아와 작가 티에리 모제네는 <숫자를 사용한 조작의 역사>(북스힐, 2023)에서 숫자, 가짜뉴스 등을 다룬다. 영국 빅토리아 여왕의 총리였던 디즈레일리는 거짓말에는 세 종류가 있는데, 거짓말, 지독한 거짓말, 그리고 통계가 있다고, 볼테르 역시 조작되거나 잘못 해석되지 않는다는 조건에서만 숫자가 권력을 행사하는 데 도움을 줄 수 있다고 했으니, 때때로 대의를 모두를 위한 선량한 거짓말 또는 사기에 동원되는 숫자, 신문 기사에 나오는 숫자, 편집의 마술을 부리면, 나쁜 것도 형편없는 것도 긍정적으로 우수한 것으로 탈바꿈하니, 과학에서 통계나 숫자를 가지고 사기 치는 것도 흔한 일이다.
한편, 데이터는 불평등의 정당성을 부여하는 데 사용되기도 한다. 인종차별주의가 당연하다는 논리로까지 확대되기도 했다. 최근에 나온 책으로 데이터 과학자 크리스 위킨스와 매튜 L. 존슨이 쓴 <데이터의 역사>(씨마스21, 2024)는 통계학의 등장에서 AI의 탄생까지 데이터가 바꿔놓은 권력과 사회구조를 톺아본다. 어떤 목적으로 데이터를 이용했는지, 그리고 통계의 의미가 무엇인지, 이것이 어떻게 권력이 되는지, 이른바 데이터의 역할의 양면성을 들여보고 있다. 통계는 어떻게 개인과 사회의 의사결정을 조종하는가를 보여준다.
통계는 내가 생각하는 그 무엇을 증명해주는 금과옥조나 전가의 보도 같은 것이다. 즉, 내 맘대로 조작할 수 있다는 의미이기도 하다. 분명 과학적 연구방법인데도 말이다. 실제 폭력은 감소하고 있지만, 사람들은 폭력이 늘어나고 있다고 생각하는데, 이는 왜일까? 직감이다. 나에게, 내 주변에서 경험하고 전해 듣는 이야기, 잘못된 정보가 연쇄반응을 일으켜, 사실과 달리 왜곡된다. 여기에는 ‘가용성 편향’도 한몫을 거든다. 언론보도에서 끔찍한 사건을 봤어로 시작하는 대화는 요즘 범죄가 너무 심해로 귀결되는데, 바로 내가 보고 믿고 싶은 것만 믿는 것이다.
통계의 다섯 가지 함정
첫째, 축적의 무시다. 데이터를 해석할 때 백분율과 비율에 대한 기본적인 이해가 도움이 된다. 큰 변화처럼 느껴지는 것이 전체 데이터로 볼 때는 실제로 거의 의미가 없을 때도 있고 아주 작은 변화가 상당히 중요한 때도 있다. 둘째 잘못된 중앙의 척도를 바라보기, 셋째, 상관관계와 인과관계의 혼동, 이것이 큰 함정이자 극적인 결론으로 이어지는 함정이기도 하다. 상관관계는 모든 곳에 존재하고, 인과관계와는 아무런 관계가 없는데도, 상관관계가 있다고 생각하는 것이다. “백신이 자폐증을 유발한다”라는 말이 맞냐, 틀리냐, 놀랍게도 백신으로 자폐증이 생긴다는 인과관계로 해석하는 경향이 많다는 점이다. 한 의사가 백신과 자폐증의 단순한 연관을 말했는데, 이를 들은 부모가 인과관계를 나타내는 신호라고 추측한 것이다. 넷째는 편향을 알아보지 못하는 것이다. 숨겨진 편향을 알아차리기는 쉽지 않지만, 이것이 영향을 미친다. 다섯째, 인과관계를 거꾸로 이해하기, 실제로 원인과 결과가 불명확한 상관관계가 많다. 흡연과 우울증에 관한 통계, 흡연과 우울증 사이에서 강력한 상관관계가 존재한다. 당신의 흡연이 우울증으로 이어진다고 판단하고 싶은 강렬한 유혹, 하지만, 인과관계 입증을 하지 못했다. 흡연이 우울증을 유발하는지, 이미 우울증을 앓는 사람이 담배를 피우는 경향이 있는지를 모른다는 것이다.
이 책은 통계를 어떻게 이용할 수 있는지를 보여준다. 통계란 머리 무거운 게 아니라, 똑똑해져야 하기에 더욱이 정보의 바다에 빠져 죽지 않으려면 헤엄치는 법을 알아야 하듯이,