-
-
신호와 소음 - 미래는 어떻게 당신 손에 잡히는가
네이트 실버 지음, 이경식 옮김 / 더퀘스트 / 2014년 7월
평점 :
구판절판
우리는 수많은 표본 속에 공통적으로 나타나는 것을 가지고 특정 집단의 특징을 뽑아 낼 수가 있다. 이같이 여러 정보를 한데 모아서 분류한 뒤 특정을 찾아내는 것을 통계라고 한다. 통계는 수량적 비교를 통해 사실을 관찰하고 처리하는 것이다. 수치상의 성질, 규칙성 또는 불규칙성을 찾아낸다. 실험 계획, 데이터의 요약이나 해석을 실시하는데 있어서의 근거를 제공하며, 폭넓은 분야에서 응용되어 실생활에 적용되고 있다.
최근 주목받고 있는 빅 데이터도 기존 기업들이 활용하던 통계를 좀 더 적극적이고, 광범위하게 확대한 것으로 볼 수 있다. 빅 데이터는 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
그동안 통계는 기존에 있던 특정 정보를 대부분 사람들이 직접 취합하는데 그쳤지만, 최근 빅 데이터에 활용되는 정보는 접속기록, 위치정보, 센서 등의 다양하면서도 대량의 정보를 취합할 수 있다. 이렇게 많은 정보를 취합하게 되면 각 변수들의 상관관계를 조사할 수 있고, 이전까지는 전혀 연관성을 가진다고 생각하지 못한 부분까지 확인할 수 있다. 기업들의 경영환경은 최근 빠르게 변화하고 있기 때문에, 기존 사업부문이 어떻게 변하고 있는지 앞으로 어떻게 변할지에 대해서 빅 데이터로 예측한다. 또 새로운 전략을 만들어야 할 때, 빅 데이터를 통해 얻어진 정보는 성공의 가능성을 높여주는 역할을 한다.
그러나 빅 데이터의 단점도 있다. 일단 빅 데이터 활용이 쉽지 않다. 기존에 잘해왔던 정형 데이터는 전체 데이터의 20%에 불과하며 나머지 80%는 기존에 잘 다루지 않았던 비정형 데이터이다. 각기 다른 비정형 데이터를 표준화 시킬 수 있는 활용법이 필요하다. 게다가 폭증하는 데이터를 처리하기 위한 기술적인 한계를 극복하는 것도 문제다. 그러나 더 큰 문제는 이런 빅 데이터가 정말 가치가 있는지에 대한 확신을 할 수 없다.
이러한 빅 데이터 시대를 맞아 미래학자 앨빈 토플러의 ‘미래 쇼크’가 새삼 떠올린다. 토플러는 미래에 예상되는 기술적, 사회적 변화가 그 속도를 점차 가속화함으로써 개인이나 집단의 적응이 한층 어려워질 것임을 예견하고 있다. 미래의 변화는 상상할 수 없이 너무 빠른 가속도로 전개되기 때문에 이런 변화의 가속화가 어떤 결과를 가져올 것인가, 또 인간은 이러한 미래에 어떻게 적응(또는 적응에 실패)할 것인가를 미리 내다봐야 한다는 것이다.
특히 과중한 정보의 부담(정보 과부하)이 인간 행동을 와해시킴으로써 정신 병리 현상을 일으킬 가능성이 있다고 내다보고 있다. 현대 사회는 과거에 비해 훨씬 많은 양의 정보를 이전보다 훨씬 빠른 속도로 처리하도록 강요받고 있는 상황이다. 지금 자고 일어날 때마다 2.5퀸틸리언(Quintillion, 조의 1만 배, 100경) 바이트나 되는 빅 데이터 속에 우리는 올바른 정보를 선택하고 수집할 수 있을까?
매일 빅 데이터가 쏟아져 나오는 상황에서 과거 데이터에만 집착한다면 오류를 범할 수 있다. 그것은 나무 그루터기에 토끼가 부딪히기만을 기다리는 어리석은 농부(수주대토, 守株待兎)와 같다.

옛날 송나라에 어느 농부가 밭에서 일을 하다 잠시 쉬고 있었다. 농부가 보는 앞에서 토끼가 지나가다가 그만 근처 나무 그루터기에 부딪혀 목이 부러져 죽었다. 뜻밖의 횡재를 한 농부는 죽은 토끼를 집어 들고 이렇게 생각했다.
“토끼가 이렇게 저절로 뛰어나와 나무에 부딪혀 죽는 줄 진작 알았다면 힘든 농사를 짓지 않았을 텐데.”
농부는 그 날부터 쟁기를 집어던지고 그루터기만 지켜보기 시작했다. 또 다른 토끼가 뛰어오다 죽으려니 하고, 허구한 날 나무 그루터기를 지키며 근처에서 기다린다. 그 결과 토끼는 한 마리도 얻지 못하고 일 년 농사만 망치고 말았다. 이런 식으로 토끼를 잡으려 하다니 어리석지 않은가?
농부의 모습은 자신이 아는 정보를 믿고 미래를 예측했다. 토끼가 나무 그루터기에 부딪힌 것을 목격했으니 다음번에도 똑같은 상황이 재현될 거라고 믿었다. 가만히 있으면 빅 데이터 속 진짜배기 정보를 절대로 찾을 수 없다. 내가 원하는 정보가 저절로 내 손으로 들어오지 않는다. 특히 과거의 직관적 판단으로 무수히 많은 양의 빅 데이터를 다루기가 쉽지 않다. 어제 나온 빅 데이터는 며칠만 지나면 더 이상 쓸모없는 과거 정보로 전락한다. 끊임없이 새로운 객관적 분석 기법과 예측모델을 만들어야 한다.
빅 데이터는 말 그대로 대용량 정보다. 데이터는 지금 이 순간에도 무수히 만들어지고 있다. 여기서 데이터는 채팅을 한다든가, 게시판에 글을 올리는 형태로만 생산되는 것이 아니다. 당신의 웹사이트 방문, 온라인 검색통계, 서버에 남겨지는 로그정보 등 각종 ‘흔적’ 역시 데이터가 된다. 과거엔 이렇게 생산되는 데이터들은 방치됐다. 쉽게 말해 의미 있는 ‘신호(signal)’가 아니라 단순히 ‘소음(noise)’에 불과했다. 소음을 제거하고, 자신이 듣고 싶은 신호를 찾을 때다. 그 신호를 통해 미래를 예측해야 한다.
최근 주목받는 미국의 통계학자 네이트 실버의 『신호와 소음』은 빅 데이터 과부하 시대에 읽어야 할 책이다. 그러나 이 책이 올바른 정보를 찾고, 미래를 예측하는 방법을 소개하는 일종 미래학 서적이라고 생각하면 곤란하다. 이 책에 소개된 신호와 소음을 구별 못한 통계 오류 사례들은 단순히 통계학자의 어리석음을 지적하기보다는 미래 예측의 어려움을 강조하고 있다.
왜 통계학자들은 미래를 예측하지 못하는 오류를 범할까? 그 이유는 여러 가지로 설명될 수 있다. 자료에 접근하는 분석 기법이 적절치 못할 것일 수도 있지만 가장 치명적인 원인은 합리적 분석과 예측을 방해하는 지나친 자신감이다. 우리는 자신에게 익숙하고 유리한 정보만 귀 기울이고 알려고 한다. 그것을 맹신하게 되면 정작 중요한 신호를 외면해버리고 잘못된 예측을 하고 만다. 그리고 기존의 예측 기법을 고수하는 경향이 강하며 예측의 불확실성을 인정하지 않으려고 한다.
네이트 실버는 신호와 소음을 구분하기 위한 분석 방법으로 ‘베이츠 정리’를 소개한다. 베이츠 정리는 사전 확률을 도출한 뒤 새 정보가 나오면 가장 가능성 있는 것을 골라 적용해 사후 확률을 개선해 나가는 방법이다. 즉 끊임없이 나오는 새로운 정보가 나오면 기존 예측을 잠시 제쳐두고 새로운 예측을 업데이트해야 한다. 통계학자는 정확한 예측을 도출하고 최소한의 오류를 피하기 위해서 시행착오를 거쳐야 한다.
빅 데이터 시대로 진입할수록 상상을 초월할 정도로 그 변화 속도가 빠르다. 이 변화의 시대에 생존하기 위해서는 변화 속도를 스스로 조절하거나 변화에 적응하는 길만이 있을 뿐이다. 그렇다면 우리가 살아남기 위해서는 변화에 어떻게 적응하느냐가 중요한 화두로 떠오르게 된다. 미래 사회를 이끌어 갈 전문가라면 미래를 예측하기 위해 이 문제에 대해 무관심할 수가 없다.
급속한 변화에 성공적으로 대응해 나가려면 미래에 대한 새로운 자세, 즉 미래가 현재에서 수행하는 역할에 대한 새롭고도 민감한 인식을 가질 필요가 있다. 비록 미래를 정확히 예측하는 완전무결한 능력을 가질 수 없지만 정보 소음의 유혹에 빠지지 않도록 부단히 공부해야 한다. 내가 원하는 신호는 본인이 직접 찾아야 하는 시대가 되었다. 신호는 저절로 당신의 손에 오지 않는다. ‘수주대토’의 농부처럼 자신의 직관만 믿었다간 엉뚱한 예측으로 인해 낭패 본다.
세상에 존재하는 모든 분석 기법에 능통한다고 해서 뛰어난 통계학자가 될 수 없다. 예측할 수 없는 것을 인정하는 '겸손함', 예측할 수 있는 것을 예측하는 '용기' 그리고 그 차이를 아는 '지혜'를 잊으면 안 된다. 지나친 자신감과 방심은 1%의 소음도 외면한다. 통계학자가 보지 못하는 1%의 소음이 세상을 변화하는데 결정적 영향을 주는 중요한 신호가 될 수 있다.