수학의 쓸모 - 불확실한 미래에서 보통 사람들도 답을 얻는 방법 쓸모 시리즈 1
닉 폴슨.제임스 스콧 지음, 노태복 옮김 / 더퀘스트 / 2020년 4월
평점 :
장바구니담기


불확실한 미래에서 보통 사람들도 답을 얻는 방법

뉴스데이터, 주식시장, 스포츠통계, 의료진단등

일상에서 성공의 확률을 높여주는 생각의 힘

 

 

약간 큰편의 사이즈에 두툼한 하드커버, 게다가 제목에 '수학' 이 들어가는 책의 위압감^^ 대비 가독성이 좋은 책이었다.

저자 두명 모두 통계학 교수이고 본내용들도 통계관련 사례들이기 때문에 사실 수학의 쓸모라기 보다는 통계학의 쓸모 가 더 정확한 표현 같지만 통계학도 수학의 일종이긴 하니깐 뭐 ㅎㅎㅎ

원제는 AIQ 라고 써있는데, 풀어써놓지 않아서 아마도 Artificial Intelligence Quotient 즉 인공지능지수 가 아닐까 싶다. 수학 그중에서도 통계학 그중에서도 방대한 데이터를 바탕으로 한 AI 이야기가 주내용을 이루고 있기 때문이다.

AI 개발자의 역할은 알고리즘에 무엇을 할지 갈쳐주는 것이 아니다. 통계와 확률의 규칙을 이용해, 무엇을 할지 스스로 배우는 방법을 가르쳐준다. (p. 9)

오늘날 수많은 회사에서 AI 를 이용한 다양한 알고리즘을 만들어 활용하고 있다. 그리고 이 AI 알고리즘 뒤에는 수학이 있다.

매력적인 역사 속 인물을 한 명씩 만나는 사이에 여러분은 왜 똑똑한 기계는 똑똑한 사람이 필요하며 반대도 마찬가지인지 알게 될 것이다. 그리고 지성과 기술을 결합하면 인간이 얼마나 위대해질 수 있는지도 인식할 수 있을 것이다. (p. 13)

7챕터로 구성된 이 책은 각 장마다 역사적 인물의 사례와 지금 현실 사례를 접목시키며 스토리적 재미를 높여주고 있다. 수학책을 읽는다는 느낌이 별로 들지 않게 이야기를 읽듯 술술 읽히면서 AI 와 데이터 에 대해 생각하게 한다.

이제껏 여러분의 디지털 인생에서 가장 중요한 알고리즘은 검색이었다. 즉 대다수가 이용하는 구글 검색 말이다. 하지만 미래의 핵심 알고리즘은 검색이 아니라 추천이다. 검색은 좁고 제한적이다. 여러분은 무엇을 검색해야 할지 미리 알고 있어야 하며, 여러분의 지식과 경험이 받쳐주는 만큼만 검색할 수 있다. 한편 추천은 풍부하고 제한이 없다. 수십억 명의 축적된 지식과 경험을 바탕으로 하기 때문이다. 또 추천 엔진은 도플갱어와 같아서, 언젠가는 여러분이 원하는 바를 여러분보다 더 잘 알 수 있게 될지 모른다. (p. 22)

첫 이야기는 넷플릭스로 시작한다. 넷플릭스의 성공기반은 데이터 축적이었다.다년간 쌓아놓은 데이터들은 테스트없이 바로 제작해도 성공하는 드라마를 만들수 있게 만들어주었다.

검색 엔진이 생기면서 무궁무진한 지식의 정보가 넘쳐났고 그 정보의 바다에서 허우적거린지도 얼마 안된것 같은데, 이젠 추천의 시대라니. 그 변화속도에 정신을 차릴 수가 없다. 하지만 정신을 차리기도 전에 우리는 이미 그 서비스를 이용하고 있다. 너무나 당연하게. 그리고 그 이면에도 또한 수학이 있다.

에이브러햄 왈드는 전투기를 한번도 타보지 않은 수학자였지만 2차대전 중 전투기 피해데이터를 수집하고 분석하여 수많은 조종사들의 생명을 살렸다. 돌아온 전투기 동체에 가장 많은 총탄흔적이 있는 것을 보고 전투기 동체에 한겹더 보호막을 덧대려 할때 왈드는 말했다. 돌아온 전투기가 아닌 돌아오지 않은 전투기를 돌아올 수 있도록 보호막을 덧대야 한다고, 동체가 아니라 엔진을 보호해야 한다고.

왈드의 조건부 확률은 넷플릭스가 활용한 방식과 다르지 않았다.

거리의 비밀을 푸는 진정한 단서는 천체의 진짜 밝기에 관한 지식이다. 천체의 겉보기 밝기와 실제로 방출하는 빛, 즉 진짜 밝기를 알게 된다면 물리학 법칙을 이용해 그 천체가 얼마나 멀리 있는지 알아낼 수 있다. 그다음 계산하는 과정은 수학적으로 따분한 일이긴 하지만 개념은 단순하다.

AI 분야의 관점에서 보자면, 레빗이 예측 규칙을 발견한 셈이었다. '출력=입력의 함수' 라는 간단한 공식을 사용해서 말이다. (p. 84)

 

천문학은 수학과 데이터축적이 필수적인 학문이다. 튀코 브라헤의 실측 데이터가 없었다면 케플러의 법칙은 발견될 수 없었다. 근대에서 천문학은 세계관을 좌우하는 학문이었다. 따라서 첨예한 논쟁이 늘 있어왔다. 별들의 거리문제도 논쟁거리였다. 1912년 헨리에타 레빗의 규칙(저자에 의하면 우주의 줄자)이 없었다면 그 논쟁은 아마 시간이 더 오래 지난후에야 해결점을 찾았을 것이다.

앞서 설명했듯이 AI 에서 패턴 인식은 방정식을 데이터에 맞춘다는 의미다. 그리고 이 개념은 벌써 1805년에 나왔다. 그렇다면 혁신적인 발전은 왜 최근에야 일어났을까?

그 이유는 이미지, 텍스트, 동영상 등의 대용량 데이터에서 나타나는 패턴이 복잡하기 때문이다. 레빗의 맥변광성 그래프처럼 산포도로 시각화할 수 있는 패턴보다 엄청나게 복잡하다. 그리고 이 패턴들은 직선의 방정식보다는 훨씬 어려운 방정식으로 기술된다. 이런 방정식들을 제대로 이해하려면 고용량의 컴퓨터 연산 능력과 아울러 많은 데이터가 필요하다. 기술 수준이 높아진 최근에 와서야 혁신적인 발전이 일어날 수 있었던 이유다. (p. 92)

 

아무리 훌륭한 원리일지라도 뒷받침되는 기술이 있어야 활용할 수 있다. 컴퓨터연산능력의 발달은 많은 것들을 가능하게 만들고 있다.

1968년 미핵잠수함 스콜피온이 갑자기 사라진 사건이 있었다. 수색해야할 바다 범위는 너무나 넓었고 아무런 단서가 없었다. 그때 수색범위를 좁히고 마침내 스콜피언을 찾아낼 수 있게 한 사람이 존 크레이븐 이라는 베이지언 검색의 달인이었다.

스콜피온 이야기에서 우리가 반드시 얻어야 할 교훈이 있다. 바로 모든 확률이 조건부확률이라는 것이다. 달리 말해서 모든 확률은 우리가 알고 있는 바에 달려 있다. 우리의 지식이 달라지면 확률도 반드시 달라진다는 말이다. 그리고 베이즈 규칙은 확률이 어떻게 달라지는지 알려준다. (p. 132)

베이즈 규칙은 새로운 정보가 입수됐을 때 기존의 믿음을 어떻게 바꿔야 할지 알려준다. 사전확률을 사후확률로 바꿔주는 것이다.

본질적으로 자율주행차는 자신을 베이즈 도로에서 이동하는 확률의 한 방울이라고 생각한다. (p. 133)

 

통계와 확률은 쌍둥이 같은 사이다. 방대한 데이터 축적을 바탕으로 한 통계자료에서 원하는 조건의 확률을 구하는 것은 어렵지 않다. 저자도 베이즈 규칙을 활용하면 매일 마주치는 정보의 홍수 안에서 지혜를 찾을 수 있을 것이라 말한다. 하지만 문제는 확률을 구해낼 수 있는 정리된 데이터자료를 우리가 항상 구할 수는 없다는 것이랄까

최초의 컴퓨터는 엄청나게 컸고 계산력도 그닥 신뢰할만하지 못했다. 당시 컴퓨터를 활용하려면 프로그래머가 테이프에 알맞은 비트들의 구멍들을 뚫고서 컴퓨터 회로에 끼워넣어야 했다. 1944년 수학교수직을 그만두고 군에 입대했던 여성 그레이스 호퍼는 컴퓨터는 인간으로 말하지 않는다는 사실을 새삼 느끼고 컴퓨터에 말을 걸 수 있는 방법을 고민했다. 그렇게 프로그래밍언어 혁명이 시작되었고 자연언어를 인식할 수 있는 방법을 연구하는 데까지 확대되었다. 하지만 인간의 언어인 자연언어를 컴퓨터가 그대로 인식할 수 없다는 결론이 내려졌다. 인간의 언어는 너무 규칙이 많았고 견고하지도 않았으며 사람에 따라 모호할 수 밖에 없었다.

2010년 즈음에 모든 것이 달라지기 시작했다. 처음에는 느리게 흘러가던 혁명이 놀라운 속도로 움직이기 시작했다. 이 변화를 견인한 것은 바로 데이터의 방대한 유입이었다. (p. 191)

인간의 언어를 프로그래밍할 수는 없었지만, 데이터들을 쌓아 컴퓨터가 확률적으로 선택된 의미를 이해할 수 있는 방식이 고안되었다. 지금도 이런저런 방식으로 대화?!하는 가전들이 나오고 있다. 언젠가는 정말 AI 와 편안한 대화를 하게 될 수 있을 지도 모르겠다.

1969년에 그 모든 사건의 중심에 선 인물은 아이작 뉴턴이다. 그렇다. 미적분의 발명자, 만유인력을 알아낸 사람, 시인 알렉산터 포프의 시구를 통해 불멸의 존재로 드돞여진 바로 그 뉴턴이다. 1969년에 쉰네 살의 뉴턴은 과학계 거물로서 케임브리지대학교에서 종신 교수직을 보장받고 있었다. 그런데 그해에 돌연 교수직을 그만두고서 런던으로 거처를 옮기더니, 정부 관리인 친구가 제안한 한직을 수락했다. 왕립조폐국 감사 직책이었다. (p. 221)

당시 영국화폐는 은화였는데 화폐금액보다 은 자체의 가치가 더 높다보니 화폐시장이 혼란에 휩싸여 있었다. 뉴턴은 여러가지 노력을 했으나 은화의 변동성을 알아채지 못했고 따라서 부정거래를 근절시키지 못했다. 저자는 데이터를 통한 부정거래 적발과 스포츠에서의 데이터활용사례를 통해 변동성을 측정한다는 것이 어떤 효과를 가져오는지 설명한다.

이처럼 무턱대고 패턴을 찾아내려는 사람의 성향은 그동안 많은 지적을 받아왔다. 하지만 성급하게 결론을 내리는 현상은 여전히 계속되고 있다. 가령 한 데이터 집합이 어떤 질문에 대한 답을 내릴 수 없을 때가 있다. 그때 여러분은 답을 내놓을 수 있는 데이터를 찾아야 한다고 생각할 수도 있다. (p. 286)

하지만 지금 당장 답을 알아내려고 하는 것은 입수한 데이터로부터 의심스러운 가정을 이용해 강제로 자백을 받아내고자 하는 억지다. 그런 자백이 결국에는 진짜 피해를 초래할지 모른다. (p. 287)

 

통계와 확률은 유용하지만 위험하기도 하다. 저자는 한 신문기사를 예로 들어 잘못된 확률이 얼마나 왜곡된 가짜 뉴스를 양산할 수 있는지 보여준다. 그래서 얼마전 읽었던 '이상한 수학책' 에서는 평균과 같은 대표값의 허위성을 설명하기도 했다. 확률은 그 기본 데이터가 탄탄해야 믿을 수 있는 것이다.

이런 성공과 대비해 볼때, 의료 서비스 분야에서는 그런 문화적 헌신이 부족했다는 사실이 더욱 안타깝다. AI 가 다른 어느 분야보다도 더 많은 사람을 도울 수 있는 분야가 의료 서비스이기 때문이다. 하지만 가장 발전된 AI 기술이 실제 환자를 대규모로 돕는 시기가 오려면 아마도 오랜 세월이 걸릴 듯한데, 그 이유는 과학이나 컴퓨팅 역량과는 하등 관계가 없고 전적으로 문화, 동기, 관료주의와 관계가 있다. (p. 311)

나이팅게일하면 백의의 천사, 총알이 빗발치는 전장에서 부상병들을 치료하는 이미지로 강하게 인식되어 있다. 하지만 나이팅게일의 능력은 의료행정에서 더욱 빛나는 업적을 남겼다고 한다. 당시 부상이나 질병보다 위생상태나 잘못된 절차로 인한 사망건수가 엄청나게 많다는 것을 조사하고 분석한 데이터로 보여줌으로써 의료현장의 많은 부분을 개선시켰다. 그 당시에도 데이터의 힘은 막강했다. 하물며 지금은 AI 시대 아닌가. 개인정보보호 관련 문제도 문제이지만 여전한 관료주의와 문화적 인식의 한계점을 지적하며 저자는 개선을 요구한다.

다음번에 일어날 의료 분야의 데이터 과학 혁신은 나이팅게일과 같은 단 한사람이 아니라 수천 명이 관여할 수밖에 없다. 멋진 프로젝트를 계속 추진하는 사람들이 의료계 동료들에게 AI 시스템이 정말로 효과적이라고 설득하면서 근거를 계속 내놓아야 혁신이 가능할 것이다. 그리고 여기에는 의사와 간호사, 프트웨어 엔지니어, 데이터 베이스 관리자, 프라이버시 전문가, 벤처 투자가, 보험업자, 병원 운영자, 정책 입안자 그리고 환자들도 전부 참여해야 한다. 혁신은 전부 함께 힘을 모을 때 일어난다. 모쪼록 플로렌스 나이팅게일의 가장 굳건한 결단력이 여러분 모두의 마음속에 깃들기를 바란다. (p. 347)

2018년에 이 책을 출판했던 저자들이 코로나사태를 예상하진 못했겠지만, 저자가 마무리한 저 문단은 지금 확실한 시사점을 던져 준다. 전세계적인 코로나 사태가 아직 현재진행중인 이때, 데이터를 숨기는 나라 와 데이터를 왜곡하는 나라 가 얼마나 잘못하고 있는 것인지는 위험을 무릅쓰고 비난을 감수하며 공개적으로 진행하고 있는 것인지 와의 차이가 어떤 결과로 드러날 것인가로 비교될 수 있을 것이다. 데이터를 제대로 축적한 곳만이 제대로 된 해결책을 찾음으로써 마무리되길 바래본다.

 


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo