-
-
데이터과학자의 사고법 - 더 나은 선택을 위한 통계학적 통찰의 힘
김용대 지음 / 김영사 / 2021년 2월
평점 :
학문적 성취와 대중적 글쓰기는 비례하지 않는다. 한 분야에 애정을 갖고 꾸준하게 몰입한 사람에게 느껴지는 아우라는 스스로 포장하거나 자랑하지 않아도 저절로 드러난다. 어눌하지만 자신의 경험과 생각을 꾹꾹 눌러쓴 글들은 독자도 무겁게 받아들이고 가슴에 담는다. 감상에 치우쳐 호들갑을 떨고 달달한 설탕만 듬뿍 뿌려 차린 보기 좋은 다과와 차이가 난다. 어느 분야나 마찬가지지만 특히 과학은 읽을만한(?) 읽고 싶은(?) 책이 많지 않다.
전문 지식을 늘어놓은 책은 대학교재로 쓰이거나 연구성과의 정리에 불과하다. 그것이 갖는 의미와 그 과정에서 길어 올린 생각, 그것이 타인과 사회에 미칠 영향과 유용성을 찬찬히 설명하는 책은 만나기 쉽지 않다. 더구나 국내 과학 서적은 아쉬움이 더 많다. 그런 면에서 김용대의 『데이터 과학자의 사고법』은 주목할만하다. 흥미로운 사례 중심의 서술로 일반 독자에게 어필하고 실제 우리 삶에 적용 가능성을 설명한다. 데이터과학이 무엇인지 얼마나 중요한지 역설하는데 그치지 않고 미래 사회를 전망하는데 도움을 준다. 또한, 막연한 두려움을 느끼는 4차 산업혁명과 인공지능 시대를 구체적으로 이해할 수 있게 해준다.
“데이터과학의 목적은 데이터를 기반으로 합리적 의사결정을 하는 것입니다. 즉 데이터과학은 ‘데이터’와 ‘합리적 의사결정’이라는 2가지 요소로 구성되어 있습니다.”라는 말에서 알 수 있듯이 합리적 의사결정은 인간의 진화과정에서 결여된, 아니 인간에게 가장 부족한 DNA라는 생각을 지울 수가 없다. 타고난 본능에 반하는 합리성, 논리적 사고, 이성적 판단 능력은 후천적 노력에 의해 기를 수밖에 없다. 이를 돕는 보조 장치가 통계다. 숫자 없는 통계학을 읽어내는 안목이 바로 데이터 리터러시다.
우리는 평균의 함정, 표준편차의 의미, 일상시험의 과정, 인공지능의 부작용 등 골치 아픈 제목으로 가득하지만 이 책에는 숫자나 통계 공식과 이론이 등장하지 않는다. 데이터과학이라는 바탕 그림 위에 펼쳐진 인간의 삶과 세상의 작동원리가 퍼즐처럼 놓여 있을 뿐이다. 개별적 존재로서 한 인간이 자신의 사고 과정을 살피고 타인과의 관계를 조망하며 세계를 탐구하는 능력은 저절로 길러지지 않는다. 허명을 떨치고 세속적 성공을 거두는 일도 중요하지만 독서의 본질은 그 이면에 숨은그림찾기와 비슷하다. 햇빛을 받아 반짝이는 유리의 성이라고 해서 그림자의 빛깔이 다르지 않다. 데이터과학은 찬란한 희망만큼 인간의 삶에 짙은 그늘을 만들 터. 행간에 숨은 위험성과 우려를 읽어내는 건 아마도 독자의 몫이 아닐까 싶다.
D = I + N
D는 데이터Data, I는 정보Information, N은 잡음Noise
데이터는 결국 세상의 넘치는 정보에서 잡음을 제거한 결과물이라는 설명이 눈길을 끈다. 그러니까 데이터는 발명이 아니라 발견이다. 보이는 게 전부가 아니라는 사실을 증명하는 과학이다. 우리는 정보와 잡음을 정확하게 걸러낼 수 있을까. 그 기준과 차이는 무엇일까. 매일 쏟아지는 뉴스부터 사건 사고뿐 아니라 일상에서 들려오는 상품광고에서 지인들의 가십에 이르기까지 정보와 잡음은 구별조차 힘들다. 데이터 과학 이전에 논리적 사고와 합리적 판단이 우선이다. 이성을 가진 존재로서 세상을 사는 건 생각보다 어려운 일이다. 자기만의 정답을 외치고 언제나 진리를 외치며 정확히 선악을 구분하는 태도는 오만이다. 아니 그걸 인정하는 태도만이라도 갖출 수 있다면 다행한 일이다.
코로나 시대의 백신부터 상관관계와 인과관계에 대한 오해까지 다양한 주제와 내용으로 가득한 이 책은 데이터과학자의 사고법이 왜 모든 사람에게 필요한지 웅변한다. 무엇을 생각하는가. 아니, 어떻게 생각하는가. 대체로 현실은 과정과 태도보다 목적과 결과를 중시한다. 미시적이고 단기적인 안목은 전체를 통찰하는 눈을 가린다. 어쩌면, 데이터과학은 ‘지금, 여기’가 아니라 저기 멀리 내일을 향한 손가락이다. 과학적 사고의 중요성은 아무리 강조해도 지나치지 않을 법하다.
세상에는 놀라운 사건이 그리 많지 않다는 것도 알 수 있고 하나의 사건에 대해서 다양한 견해가 있을 수 있다는 것도 데이터과학으로 살펴보았습니다. 그리고 서로 다른 의견을 잘 절충하면 훨씬 좋은 결과가 나온다는 것도 데이터과학을 통해서 배웠습니다. 데이터과학을 이해하면 상대방을 이해하는 능력이 높아집니다. 일반인이 데이터과학을 이해해야 하는 이유입니다. 데이터과학의 수준이 올라갈수록 사회는 선진화됩니다. - 388쪽
=====================================================================================
데이터과학의 목적은 데이터를 기반으로 합리적 의사결정을 하는 것입니다. 즉 데이터과학은 ‘데이터’와 ‘합리적 의사결정’이라는 2가지 요소로 구성되어 있습니다. - 16쪽
야구통계학자로 명성을 쌓고 미국 대선 예측으로 유명해진 네이트 실버Nate Silver는 그의 책 《신호와 소음》에서 정보를 신호로, 잡음을 소음으로 표현합니다. 데이터 자체는 정보가 아니며 데이터에서 잡음을 제거해야 정보가 나온다는 것입니다. - 49쪽
D = I + N
D는 데이터Data, I는 정보Information, N은 잡음Noise
요약본능은 생존을 위해 타고나는 본능으로 시작해서 후천적 교육으로 강화되고 있습니다. - 63쪽
앙상블 방버론에는 매우 흥미롭고 이해하기 어려운 과학적 현상이 숨어 있습니다. 앙상블으 예측 성능을 높이는 데에는 개별 예측 방법의 정확성보다 다양성이 중요하다는 것입니다. 즉, 주어진 문제에 대해 모두 비슷한 답을 주는, 성능이 우수한 10개의 예측 방법보다 성능 은 좀 떨어지지만 다양한 답을 제공하는 10개의 예측 방법이 앙상블에는 더 효과적이라는 것입니다. 이를 인간 사회에 적용하면 비슷한 생각을 하는 우수한 인재 10명보다 다양한 의견을 내는 평범한 10명의 의견이 훨씬 유용할 수 있다는 것입니다. 앙상블 방법은 사회의 발전에는 효율성보다 다양성이 더 중요하다는 것을 시사합니다. - 141쪽
빅데이터는 현재 4차 산업혁명의 최첨단 분야에서 엄청난 활약을 하고 있습니다. 전 세계 검색시장을 휩쓸고 있으며, 무인자동차를 시작했고, 유튜브로 미디어시장의 혁명을 이끌고 있는 기업인 구글은 빅데이터의 창시자이자 리더입니다. 검색 서비스와 유튜브 콘텐츠 추천은 빅데이터의 대표적인 결과물입니다. - 173쪽
주어진 정보에 대한 진위 여부를 알기 위해서는 결과 자체뿐 아니라 결과를 얻는 과정까지 살펴봐야 한다는 것입니다. 데이터 자체가 문제일 수 있습니다. - 179쪽
빅데이터로부터 찾아내는 새롭고 유용한 지식이 빅데이터의 가치를 결정합니다. 여기서 ‘새로운’ 정보와 ‘유용한’ 정보는 서로 대립하는 개념입니다. 대체로 새로운 정보는 유용성이 떨어지고 유용한 정보인 경우 이미 알려진 정보인 경우가 많습니다. - 180쪽
1956년에 개최된 다트머스 학회Dartmouth Conference에서 존 매사키John McCarthy가 이 연구 분야의 이름을 ‘인공지능’AI, Artficial Intelligence이라고 최초로 명명해서 현재까지 사용되고 있습니다. - 330쪽
인공지능 번역 알고리즘은 생각보다 너무 단순합니다. 인간이 사용하는 거의 모든 문장을 숫자 700개의 조합으로 나타낼 수 있었습니다. 인간이 사용하는 문장이 생각보다 복잡하지 않은 것 같습니다. 문장은 달라도 의미가 비슷해서 생기는 현상일 수 있습니다. 언어학자도 이 현상을 보며 놀랐습니다. 인공지능이 단순히 인간의 지능을 자동화하는 것을 넘어서서 인간도 모르는 인간에 대한 새로운 통찰을 알려주는 시대가 왔습니다. - 359쪽
데이터과학으로 나오는 모든 결론을 그대로 믿으면 안 됩니다. 데이터에 기반하든 논리로 추론하든, 모든 판단에는 오류가 있기 마련입니다. 완벽한 판단은 존재하지 않는다는 것이 1931년 독일의 수학자 괴델에 의해서 증명되었고, ‘불완전성 정리’Theory of Incompleteness로 알려져 있습니다. 어떠한 골리 체계도 증명할 수 없는 참인 명제가 항상 존재하며, 따라서 스스로 모순성이 없음에 대한 증명은 불가능하다는 것입니다. 즉, 자신이 한 증명이 맞았는지를 자신이 증명할 수 없다는 것입니다. - 380쪽
세상에는 놀라운 사건이 그리 많지 않다는 것도 알 수 있고 하나의 사건에 대해서 다양한 견해가 있을 수 있다는 것도 데이터과학으로 살펴보았습니다. 그리고 서로 다른 의견을 잘 절충하면 훨씬 좋은 결과가 나온다는 것도 데이터과학을 통해서 배웠습니다. 데이터과학을 이해하면 상대방을 이해하는 능력이 높아집니다. 일반인이 데이터과학을 이해해야 하는 이유입니다. 데이터과학의 수준이 올라갈수록 사회는 선진화됩니다. - 388쪽