데이터과학자의 사고법 - 더 나은 선택을 위한 통계학적 통찰의 힘
김용대 지음 / 김영사 / 2021년 2월
평점 :
장바구니담기


데이터과학자의 사고법 


요즘 4차산업혁명시대에 빅데이터와 관련된 뉴스와 책들을 자주 접하게 되는데 이 책은 그 데이터에 대한 기본 개념과 원리부터 사회적 의미와 가치를 짚어준다. 특히 어렵지 않게 수포자들도 흥미롭게 읽을 수 있다는 점이 이 책의 최대 장점이다. 


개인적으로는 책의 초반부에 데이터 리터러시라는 키워드 하나에 큰 깨달음을 얻었다. 소위 문해력이 요즘 여기저기서 화두로 다뤄지는데 이제는 데이터에 대한 리터러시도 큰 의미가 있음을 배우게 되었다. 


이 책의 주제인 데이터과학은 알고보니 예전의 통계학이었다. 그 통계학이 요즘 같은 데이터 범람의 시대에 세상을 분석하고 통찰할 수 있는 최고의 도구이자 무기였던 것이다. 이 책의 저자 역시 통계학 전공의 데이터 과학자로 어려운 데이터를 읽어내고 해석하며 활용하는 방법을 일상 속 사례를 통해 알기 쉽게 설명한다. 


개인적으로는 이런 데이터과학을 <더 나은 선택을 위한 통계학적 통찰의 힘>이라고 풀어쓴 대목에 감탄했고 한 치 앞도 예측불가능한 시대를 건너는 가장 확실한 방법 중에 하나가 바로 이 분야인 듯 하다. 그래서 이런 세계를 움직이는 법칙이자 본질인 통계와 확률을 어떻게 이해하고 이를 바탕으로 미래를 대비해야 하는지는 전문가들 뿐만 아니라 일반대중들에게도 필수교양인 것이다. 


이 책의 디지털 리터러시가 중요하다는걸 배우게 되는 여러 사례중에는 어림짐작과 실제 확률이 얼마나 다른지를 보여주는데 우리가 흔히 착각하는 확률에 대한 오해가 놀랄 정도로 심각했다. 또한 97% 거짓말탐지기가 법원의 증거로 채택되지 못하는 이유와 한 반에 생일이 같은 두 사람이 있는 이유, 선거전문가들이 트럼프의 당선을 예측하지 못한 이유, 백신의 예방효과가 확률이 아닌 이유 같은 사회적 이슈로 설명하는 데이터 과학은 무척 흥미로웠다. 


이런 여러 재밌는 이야기들을 읽다보면 결국 우리의 직관과 경험이 틀렸으며 통계적 사고가 진실로 가는 가장 확실한 길임을 자연스럽게 배울 수 있다. 


책의 구성은 세개의 챕터로 이어지는데 초반에 조건부 확률부터 정규분포, 표준편차, 회귀, 극단값, 표본조사, 다중비교 등에 대한 개념을 우리 주변 일상의 사례에서 배우고 나면 세상만사의 데이터과학으로 인구조사, 중력파 검출, 임상시험, 민주주의와 선거, 금융, 광고, 제조업에서 활용되는 데이터 과학의 대향연이 펼쳐진다. 


그리고 마지막 챕터에서는 요즘 가장 핫한 분야인 인공지능에 대해 다루는데 인공지능의 역사부터 알파고와 앞으로 인공지능 분야의 전망을 읽을 수 있다. 


특히 알파고의 비하인드 스토리가 흥미로웠는데 알파고 이전에 바둑 인공지능이 불가능하다고 생각한 이유는 101번째 수로 가능한 수가 261개나 되었기 때문인데 261개의 개별 수 각각에 대해서 수십만 번의 자체 대국을 두는 것은 물리적으로 불가능했다. 알파고는 이 문제를 기보 빅데이터를 이용하여 해결했고 기보 빅데이터를 분석하여 실제 거의 나오지 않는 수를 과감히 제거하여 계산량을 획기적으로 줄였다. 


인공지능의 심각한 윤리적 문제도 다루는데 인공지능을 통해 이루어진 판단이나 의사결정은 부당한 편향을 낳을 수 있다. 이러한 편향은 사회에 만연한 차별과 불공정을 더욱 강화하고 영속시킬 위험이 있다는 것이다. 데이터에 기반을 둔 인공지능은 주어진 데이터를 기반으로 학습을 한다. 문제는 주어진 데이터 자체나 설계된 알고리즘 자체에 모종의 편향이 내재할 수 있다는 것이고 이 경우 학습된 인공지능도 결과적으로 모종의 편향을 띤다. 



댓글(0) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo