-
-
신호와 소음 - 미래는 어떻게 당신 손에 잡히는가
네이트 실버 지음, 이경식 옮김 / 더퀘스트 / 2014년 7월
평점 :
구판절판
‘정보화 시대’ 라는 표현이 진부하게 느껴질 정도로 21세기 한국인들은 다량의 정보를 받아들이고 처리하고, 판단하여야 한다. 조직이 아닌 일개인이 다루어야 할 정보의 양과 질이 급속도로 증가하고 있기 때문에, 이제는 과거처럼 소수의 유용한 정보를 좀더 일찍 접하는 것만으로는 경쟁우위를 점하기에 한참 부족한 세상이 되었다. 이런 상황에서, 의사결정을 위한 확률적 접근 및 대량의 데이터를 해석하는 역량은 이제 선택이 아닌 필수적이라고들 한다. ‘신호와 소음’은 이런 문제의식을 갖고 있는 독자들에게 해결의 실마리를 던져주는 책이다. 저자는 책머리부터 인간 지식이 폭발적으로 증가하였다는 점이 바로 개개인이 정보를 선별하는 역량을 갖추어야 하는 당위성을 제공한다고 이야기하며 책의 주제를 단도직입적으로 제시하고 있다. 특히, 정보량이 정보를 처리하는 우리의 이해 능력을 추월할 때 인간은 진보가 아니라 퇴보를 경험할 수도 있다는 경고는 이 책이 무슨 이야기를 하려는지를 다시 한번 강조한다.
책의 서두에서 인간의 뇌가 정보를 처리하는 방식과 관련하여 저자는 신경과학자의 연구결과를 인용하여 설명을 이어나간다. 인간은 민첩하게 위험을 회피하는 방식으로 발전하였기 때문에, 뇌가 정보를 처리하는 과정에서 반복양상을 발견하려는 욕구가 다른 어떤 동물보다 강하다고 한다. 예컨대, 갓 태어난 아기가 얼굴의 기본 양상을 인식하는 것은 아이의 개별적 학습이 아니라 진화를 통해 학습한 능력이라는 것이다. 그런데, 이 진화를 통해 습득한 본능 때문에 사람은 아무런 패턴이 없는 곳에서조차도 특정한 양상을 보게 된다는 점이 구체적 문제의식이 된다. 인용의 대상이 되는 신경과학자 토마스 포조는 이 문제를 이렇게 표현한다. “사람들은 무작위의 소음 속에서 양상을 발견하는 일을 늘 해오고 있습니다.” 이러한 문제의식에 대하여 저자는 책의 말미에서 다시한번 이렇게 강조한다. “우리의 뇌는 우리가 일상생활을 하는 동안에도 단순화와 어림짐작을 한다. 단순화와 어림짐작은 실용적 지식으로 기능하며 우리가 하는 일에 유용한 지침이 된다. 하지만 이것들은 완벽하지 않다. 또 우리는 이것들이 얼마나 진리에서 빗나가 있는지 알지 못하는 경우가 많다.”
그렇다면 신뢰할 수 있는 예측은 어떻게 얻어지는 것인가? 저자가 제시하는 키워드는 베이지언 통계학이다. 먼저 베이즈 정리에 대해 간단히 이야기해보자면, 베이즈정리는 주관적인 믿음에서 출발해서 객관적인 증거를 가지고 믿음의 확률을 높여나가는 과정이다. 베이즈 정리가 발전되고 응용된 결과, 금융시장의 위험관리를 계량적, 확률이론적으로 할 수 있게 되었고 이에 기인하여 금융시장의 온갖 파생상품들이 등장할 수 있었다. 저자는 이와 관련하여 ‘예측은 인간의 삶에서 없어서는 안되는 요소’임을 강조하면서 이러한 상황에서 ‘확률과 불확실성을 좀 더 편안한 마음으로 받아들이게 만들어주는 이론으로 베이즈 정리를 소개하고 있다.
확률과 불확실성 그리고 예측의 문제는 통계학자들이 이미 능숙하게 다루고 있는 문제들이다. 저자가 설명했던 것과 비슷하게 대통령 선거를 치르고 나면 누가 당선이 될 것인가에 대한 문제에서부터, 개별 직장의 경영상황 추이에 이르기까지 현대 사회의 모든 학문과 의사결정분야에 통계가 사용되지 않는 분야는 없다. 그렇다면 베이즈 정리라는 것이 따로 무슨 할 일이 있기에 저렇게 소개를 한다는 말인가? 이에 대해서 저자는 객관성을 실험실 안에 있는 어떤 것으로 파악한 기존의 통계적 방법론은 베이즈주의적 추론에 비교하면 ‘정확한 예측’이라는 달성하기에는 역부족이라고 주장한다. 여기까지 오면 이 책이 지향하는 바는 분명해지는 것이다.
통계적 추론(statistical inference)의 방법이 빈도주의적 접근과 베이즈주의적 접근이라는 2종류로 크게 나뉜다는 점은 널리 알려진 사실이다. 빈도주의적 통계추론이 바로 저자가 비판한 고전적 개념의 통계분석을 지칭한다. 실제, 완벽한 현상의 해석, 예측도구처럼 보이는 기존의 통계 모델이라도, 실제 현실에서는 독립변수와 종속변수가 한데 얽혀있는 경우가 다수라는 약점은 분명하게 존재한다. 현실이 그러하다면, 책의 제목이 말하는 것처럼 우리가 ‘소음’의 대표되는 의미없는 데이터 파편들을 유의미한 정보로 인지하는 경우는 생각보다 많을 터이다. 그리고 이 변수를 고려한 통계적 분석의 결과물은 ‘계량적(quantitative)’ 이지만 ‘객관적’이지는 않은 것이 되고 마는 것이다. 베이즈주의적 접근은 이런 단점을 보완하기 위하여 ‘개연성 있는 확률’이라는 측면에 더 집중하게 된다.
조건부 확률이라는 개념이 있다. 사건에 대한 정보가 주어진 상황에서 확률을 구한다는 의미인데 흔히 사건 B가 발생하였다는 조건 하에서 사건 A가 발생할 조건부 확률을 P(A|B)라고 약속하는 것이다. 그리고 이러한 조건부 확률의 개념을 가장 적극적으로 이용하여 어떤 사건의 발생확률을 예측할 때 이용하는 방식이 베이즈주의적 접근이라 요약할 수 있겠다. 일반적으로 슛을 어떤 농구선수가 슛을 시도하여 성공할 확률이 50%인데, 열 번의 시도 중 열 번의 슛을 모두 성공하였다는 사실을 알고 있을 때, 열 번째 슛이 성공할 확률을 어떻게 예측할 수 있을까? 빈도주의적 관점에서는 기존에 새로이 입수한 정보와 무관하게 성공확률을 여전히 50%로 예측할 것이다. 그러나, 베이즈주의적 관점에서는 이럴 때 열 번의 시도 중 열 번 모두 성공하였다면 열 번째 슛도 성공할 것임을 명확한 것으로 보고 열 번째 슛이 성공할 확률을 100%로 본다. 즉, 주어진 사건(열 번째 슛이 성공하는 사건)의 확률을 구하고자 하는 경우, 주어진 정보(열 번의 시도 중 열 번 성공)는 구하고자 했던 예측 확률에 영향을 주게 되는 것이다. 저자는 예측을 하면서 순전하게 빈도주의 통계로만 접근하는 것은 특히 표본 자료가 충분하지 않을 때는 효과가 낮다는 설명을 덧붙인다.
구체적으로 베이즈주의적 방식으로 어떻게 잘 예측을 할 수 있느냐는 질문에 대하여 저자는 다음과 같은 논리를 전개한다. 우선, 인간이 변수와 모델을 통하여 아주 정밀한 통계적 모델을 만들어내었더라도 변수와 관찰 속에 들어있는 불확실성 때문에 그 정밀성(accuracy)이 정확성(precision)으로 연결되지 않는다는 것이 문제라는 것이다. 또한, 이 과정에서 잘 설계된 통계학의 전문성이 우리의 눈을 흐린다. 책머리에서 언급했던 것처럼 인간의 뇌는 패턴이 없는 곳에서도 패턴을 발견하려는 경향이 있다. 인과관계가 없더라도 유의미한 상관관계가 있는 것처럼 포장된 통계 분석의 결과물은 전문가의 눈조차도 흐리는 것이다. 통계학 전문가들 조차도 편견에 사로잡힐 수 있는데, 이 원인은 계량화할 수 없는 요소들을 보다 세밀하게 분석하여 교란요소들을 통제하지 않았기 때문이 된다.
이러한 문제점에 대한 대안이 결과에 대한 확률적인 고려는 과학적 예측에서 필수 요소다. 예측에 있어 ‘단일한 수를 제시하는 것이 아니니라 가능한 모든 수를 열거하고 그 수 각각의 확률’을 말하는 것이다. 베이즈주의적 관점은 합리성을 ‘개연성(확률)’과 관련된 문제로 보는 방식이기 때문에 이러한 태도에 충실한 문제해결의 방식이 된다. 위에서 설명한 바와 같이 베이즈주의적 접근은 실시간으로 수집되는 정보에 따르는 ‘사전확률’에 계속적으로 주의를 기울이면서, 사실관계와 조건, 환경이 바뀔 때마다 그 ‘사전확률’을 업데이트해서 예측에 도달한다. 경기후퇴나 대통령 선거처럼 드물게 나타나는 사건, 따라서 판단의 근거로 삼을 자료가 그다지 많지 않고 엄청난 양의 불확실성이 내재하는 문제를 제한 시간 안에 해결해야 하는 상황에 놓일 때 우리에게는 ‘완벽한’ 판단을 내릴 능력이 없다는 것을 인정하는 것이 첫 번째 과정이다. 그 다음, 기본적으로 예측이라는 활동은 정보처리 활동의 한 유형, 즉 새로 나타난 자료를 이용해서 세상에 대해 더 진리에 가깝고 더 정확한 개념을 찾아나가는 과정으로 생각하여 임하는 것이 문제해결의 핵심이라는 것이다. 저자는 이를 “베이즈주의적 관점의 멋진 특성 하나는, 우리 앞에 제시되는 새로운 증거를 해석하는 데 영향을 미치는 경험적(사전적) 믿음들을 우리가 가지고 있음을 명쾌하게 인정할 때, 세상의 변화에 우리가 반응하는 방식을 아주 자세하게 묘사한다”고 표현하였다.
책의 전반부는 예측과 관련된 각종 문제를 소개하고, 후반부는 베이즈주의와 관련된 각종 개념 설명이 보다 자세하게 언급된다. 다행스럽게도 통계 관련 전문서에서 자주 보이는 수식과 기호가 난무하는 문제점은 이 책에서는 보이지 않는다. 오히려 한 분야의 전문가라고만 생각하기 어려울 정도로 방대한 분야 – 경제, 정치, 야구, 기상, 지진, 전염병, 체스에 포커까지!! -의 다양한 사례를 매우 가독성 높은 문체로 설명하고 있어 이런 분야에 문외한인 독자라도 자연스럽게 저자의 관점에 설득될 수 있다. 또한 베이즈 정리를 소개하는 챕터에서는 오히려 본인 스스로가 밝혔듯이 매우 조심스럽게 고른, 그렇지만 매우 자극적인 소재들 – 불륜, 9.11 테러 등 –을 바탕으로 단순하지만 이해하기 쉽지 않은 개념을 대단히 직관적으로 설명한다. 마지막으로 저자는 소음에 대한 신호의 비율이 점점 작아지는 현실 즉, 너무 많은 양의 정보가 유입되어 점차 실제 유용한 정보가 차지하는 범위는 줄어드는 상황에 대한 답을 이렇게 제시한다. ‘우리가 아는 것’이 아니라 ‘우리가 아는 것고 우리가 안다고 생각하는 것 사이의 차이’를 확인하는 것이 중요하다는 점을 인식한 다음, 처음엔 도약을 크게 하고 그 다음부터는 작은 발걸음을 꾸준히 놀리라는 것이다. 여기서 도약이란 베이즈주의적 사고를 우리의 뇌에 장착하는 것이다.
‘내가 제시하는 해법은 태도의 변화를 전제한다.’ 라고 선언과 함께 이 책은 시작되었고, 베이즈주의적으로 생각을 해보라는 말과 함께 책이 끝났다. 이 책에 방대한 분량에 질리지 않고 끝까지 비판적으로 독서를 마친 독자라면, 우리의 인생을 둘러싼 여러 가지 문제를 해결해나가는 태도에 대하여 대해 다른 시각이 열릴 것으로 확신한다. 누군가와 비교할 수 있는 대상이 있을까 싶을 정도로 훌륭햔 학문적, 업무적 성취를 이뤄낸 저자이지만, 저자가 독자들에게 권하는 방법은 ‘하늘에서 내려온 천재가 하사하는 특별함’ 따위가 아니라는게 이 책의 가장 큰 장점 중 하나라고 꼽고 싶다. 베이즈주의 원칙을 쉽게 적용하는 방법은 그저 겸손함을 갖고 수없이 많은 예측을 좀더 부지런히 하라는 평범하지만 분명한 문장이 이 책의 결론일 뿐이다. 전문적인 내용과는 별개로 회사에 근무하는 직장인으로써 정말 기억하고 싶은 한 구절은 이런 것이었다. “경쟁이 치열한 분야에는 경쟁을 통해 이른바 ‘수위water level’라는 게 형성되어 있고, 당신이 얻은 수익은 이 수면 밖으로 빙산의 일각과 같다. 수면 위로 드러나는 아주 작은 경쟁우위가 가능해지려면 그 아래로 엄청나게 많은 노력이 뒷받침되어야 한다는 말이다.” 철학자들이 말하는 좋은 삶의 태도와 데이터과학자가 말하는 좋은 예측의 방법론은 생각보다 유사한 측면이 있었다. 그래서, 나는 오늘 불확실성과 위험 앞에 몸부림치며 일상을 살아가는 나의 회사 동료들에게 이 책을 조심스럽게 추천해 보고 싶다.