수학보다 데이터 문해력 - 서울대 통계학과 정성규 교수의
정성규 지음 / EBS BOOKS / 2022년 11월
평점 :
장바구니담기




수학보다 데이터 문해력(정성규, EBSBOOKS)

#통계학 #수학보다 데이터 문해력



대한민국 축구 국가대표팀이 2022 카타르월드컵 조별예선 3차전 경기에서 포르투갈을 꺾고 16강에 진출했다. 1,2차전에서 1무 1패를 기록해 16강 진출을 위해서는 그야 말로 기적이 필요했다. 포르투갈전 후반 추가시간 천금같은 역전골을 넣어 승점 3점을 챙겼고, 같은 시각 가나에 2-0 승리를 거둔 우루과이와 골득실까지 동률이었지만 다득점으로 앞서 두 번째 원정 16강 진출의 쾌거를 이루어냈다. 미국 닐슨 산하 데이터 업체의 분석인 그레이스노트가 트위터 계정에 공개한 나라별 16강 진출 가능성을 보면, H조 중 우루과이가 가장 높은 49%였고, 가나 41%, 우리나라 11% 순이었다.



이 11%는 어떻게 산출된 것일까? 현대를 과히 ‘데이터 시대’라고 말할 수 있다. 인터넷의 발달과 더불어 정보의 양은 폭발적으로 증가했다. 우리는 이제 무엇을 하기 전에 검색을 한다. 과거의 클래식 음악가들은 자신이 작곡한 음악을 평생에 몇 번 들어 볼 기회를 갖지 못했다고 한다. 음악의 일회성과 휘발성 때문이었다. 그때의 음악가들보다 우리는 더 많은 음악을 접할 기회를 갖는다. 많은 정보의 양 때문에 무엇을 고를지, 어떻게 취합하고, 선택해야 하는지 고민을 하게 됐다. 



우리나라의 문맹률은 한글의 보급 덕분에 아주 낮은 수준이다. 7살 아이가 한글을 열심히 읽고 연습한다. 아빠가 가리키는 글자와 문장을 열심히 읽는다. 글자를 읽을 수는 있지만 어떤 뜻인지는 알지 못한다. 우리가 이제 말하는 문해력은 단순한 문자의 읽기가 아니라 문자들로 이루어진 글의 ‘의미적 읽기’에 관한 역량을 말하는 것이다. 이 문해력이 미래의 핵심 역량으로 떠오르고 있다. 



ebs 당신의 문해력 

우리 주변의 모든 것은 거의 숫자(데이터)로 나타낼 수 있다. 키, 몸무게, 집의 평수, 차의 운행 거리, 도로명 주소, 학번 등등. [수학보다 데이터 문해력]은 통계학의 어려운 개념이나 수식을 공부하는 책이 아니고 통계적 사고법을 담고 있다. 통계학자는 ‘어떻게 달라질 수 있었을까’를 생각한다고 한다.

저자는 통계의 핵심이 계산이 아니라 생각이라고 주장하며, 데이터를 제대로 읽고, 해석하고, 사용하는 데이터 문해력이 핵심인 것이다. 직장에서, 학교에서, 뉴스에서, 시장에서 데이터가 넘쳐나는 지금 우리에게 너무나도 요긴한 지식이다. 그 중에서 데어터 속에 숨은 “쓸모 있는 정보”를 찾는 과정이 필요하다. 데이터 분석의 중요성이 부각되는 지점이다. 

몰랐던 사실 하나. <백의의 천사 나이팅게일의 장미 그림을 아시나요?>에서는 간호사로만 알고 있던 나이팅게일이 간호와 보건 분야 전문인 행정가이자 영국 왕립 통계학회의 첫 번째 여성 회원인 통계학자였다는 것이다. 나이팅게일은 치료소에서 죽은 군인들의 사망 원인을 기록해 표와 그래프로 만들었고, 이것을 근거로 환기를 개선하고 하수도를 청소하는 등 치료소 환경을 개선할 수 있었다고 한다. 



<여론 조사는 왜 틀릴까?> 챕터에서는 모집단, 모수, 신뢰구간, 표본오차, 편향에 대해 설명한다. 모든 것을 완벽하게 계획하고 실행한 여론조사조차 실제 대통령 지지율은 정확히 알 수 없다. 이는 표존 선정의 편향으로 인한 불확실성이 존재하기 때문이다.




20대 대선 투표가 종료한 직후 이른바 '여론조사 깜깜이 기간(선거일 6일 전부터) 실시된 여론조사기관의 예측조사에서 국민의힘 윤석열 후보가 더불어민주당 이재명 후보를 오차 범위 밖으로 앞섰다는 결과가 나왔지만 10일 자정을 지나 개표가 95%를 넘겨 진행된 상황에서 두 후보는 0.8%포인트 안팎으로 유례 없는 '초박빙' 접전을 벌이고 있다. 반면에 방송 3사 출구조사는 양자 간 0.6% 격차를 집계, 비교적 정확히 예측한 것으로 나타났다. 



<우연을 설명하는 필연> 정규분포는 기준이 괴는 어떤 값을 중심으로 자연스럽게 퍼진 분포를 나타낸다. 중심극한정리 – 어떤 분포의 변동이라도 아주 많이 더해지면 정규분포를 따른다는 사실은 경험적으로 확인된 사실이자 수학적으로 증명된 필연적인 사실이다. 


보통 모의고사 성적표를 받으면 뒷면에 다음과 같은 성적표 표시 용어 해설을 볼 수 있다. 



로또 1등에 당첨될 확률

로또는 1~45까지의 숫자 중 6개 모두를 맞춰야 1등이 됩니다. 5등에 당첨되려고 해도 최소 3개의 번호가 일치해야 합니다. 표는 로또에 당첨될 확률입니다. 



복잡하고 고도화된 현대에는 평균 인간과 다른 타이를 오차가 아닌 개선으로 받아들이는 것이 더 효율적일 수 있다. 미국 교육심리학자인 토드 로즈는 [평균의 종말]에서 평균 인간은 없다며, 평균 잣대로 평가할 때 사회가 불행해진다는 것을 역설했다.

<특성의 개수가 많을수록 관측값은 평균에서 멀어진다> 중에서

회귀 분석은 어떤 변수로 다른 변수를 예측하는 수식을 데이터로부터 추정하는 방법이다. 가장 간단한 예로 부모의 키로 자식의 키를 예측하는 방법이 있다. 데이터를 다룰 때 조심해야 하는 오류. 첫 번째 오류는 회귀분석의 상관관계로부터 인과 관계를 끌어내는 오류이다. 두 번째 오류는 사후확신편향이다. 



예측의 원칙1: 예측이 기반이 되는 데어터가 있어야 한다. 

예측의 원칙2: 다른 사례로부터 배울 수 있어야 한다. 

예측의 원칙3: 신호와 소음을 분리할 수 있어야 한다. 





<코로나19 대유행의 정점은 언제일까?> 역학의 절반은 통계학이다. 감염병 치료법을 연구하기 위해 통계학이 쓰이고, 감염병 확산을 기술할 때에도 통계가 쓰인다. 팬데믹 예측은 감염병 확산을 얼마나 잘 파악하느냐의 문제이다. 또한 백신의 효과에 대한 예측은 거의 맞아 떨어졌다. 마크 립시치 “불확실성 앞에서 스스로 변화할 수 있는 겸손한 과학이 좋은 과학이다.”라고 말했다. 



월드컵 경기 중계를 보고 있으면 코로나가 종식된 것 같다. 우리나라처럼 마스크를 쓰고 있지 않는 것이다. 현재 모든 실내에서 마스크 착용을 단속하는 국가는 경제협력개발기구(OECD) 회원국 중 한국이 유일한 상황이다. 이달 23일 실내 마스크 착용에 대한 의무 조정 기준이 발표된다. 

통계에는 확실한 것이 하나도 없다. 모를 때는 몰라서 확실하지 않고, 어느 정도 알게 됐을 때는 그 본연의 불확실성이 명쾌함을 어지럽힌다. 불확실성을 이해하고 포용하는 것, 그것이야말로 통계의 시작이자 끝이다. (...) 통계는 데이터에서 세상을 읽어낸다. 통계학의 통찰은 일상의 작은 문제와 궁금증에서부터 개인의 삶과 사회에 중요한 영향을 미치는 의사결정까지 커다란 도움을 건낼 것이다.

<에필로그>중에서

[수학보다 데이터 문해력]은 통계의 어려운 개념을 익히는 책이 아니라 데이터를 제대로 읽고, 해석하고, 사용하는 데이터 문해력의 중요성을 강조하는 책이다. 더불어 세상의 다양한 불확실성을 이해하고 포용하라고 말하고 있다. 

#통계학 #수학보다 데이터 문해력

리뷰어스 클럽의 소개로 출판사로부터 책을 제공받아 주관적으로 작성한 글입니다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo