신호와 소음 - 미래는 어떻게 당신 손에 잡히는가
네이트 실버 지음, 이경식 옮김 / 더퀘스트 / 2014년 7월
평점 :
구판절판


 인간은 진화하면서 주변환경을 단순화하고 거기서 규칙을 찾도록 적응했다. 이는 예측을 가능하게 하여 기회를 잡고 위험을 회피하는등 인간의 생존력을 상당히 올려주었다. 하지만 오늘날 인간은 이로 인해 혼돈에 빠지기도 한다. 주변의 정보가 너무나도 많아졌기 때문이다. 이런 어지러운 상황에서 규칙을 찾는 것은 쉽지 않으며 오히려 잘못된 규칙을 찾아 낭패를 보기도 쉽상이 되었다. 디지털 전환이 이뤄지며 정보의 양은 엄청나졌지만 이중 의미를 갖는, 즉 상관성이나 인과관계를 갖는 정보는 매우 소수다. 실제 사람들이 만들어내는 정보는 대부분 일상의 사진이나, 영상등인데 하나하나는 모두 쓸모없는 정보에 불과하다. 하지만 이런 사진과 영상중 앞으로의 사회를 예측할만한 경향이나 트렌드도 있긴 할것이다. 그리고 이는 무척 소수다.

 책은 여러 분야를 살피며 여러 소음들 중 제대로 된 정보인 신호를 찾는 방법에 대해 설명한다. 뭔가 대단한 규칙을 설파할 것 같았지만 두꺼운 책을 끝까지 읽는 마지막 순간까지 그런 것은 없었다. 그래서 책은 좀 중구난방 성격이 강하다. 하지만 여러 분야에 대한 통계적 분석과 신호를 찾았던 저자의 과정을 따라가보는 것은 제법 재밌기도 했다. 여기에는 도박, 야구, 지진, 주식, 지구 온난화등 다양한 분야가 망라한다. 

 미국은 2007년 서브프라임 모기지사태로 제대로 한번 망한다. 당시에는 여러 파생상품이 등장했는데 서브프라임은 B+ 등급으로 지급불응확률이 무려 20%이상에 달한다. 이는 매우 위험한 수치인데 이런데도 투자를 하기 위해 미국의 금융권은 이를 쪼개는 짓거리를 감행한다. 서브프라임의 위험수치가 0.2이므로 이런 서브프라임 상품 5개를 쪼개 하나로 묶는다. 그러면 서브프라임 5개가 모두 지급불능이 되어야 이 상품이 지급불능이 되므로 위험수치는 0.2를 다섯번 곱한 수치가 되어 그 위험도가 통계적으로는 인상적으로 낮아진다. 하지만 문제는 이 서브프라임 상품 5개가 모두 독립적이지 않다는 것이다. 모두 부동산관련으로 매우 상관관계가 높았다. 때문에 통계적 수치와 다르게 이 상품은 매우 위험했고 그 결과는 모두가 아는바와 같다. 거기에 당시 미국의 주택 매매는 총 1.7조달러라 주식시장 매매금액 40조달러에 비해 무척 작았다. 그런데도 불구하고 이 주택을 담보로 하는 MBS거래가 무려 80조원이었다. 레버리지가 무척 컸던 셈이다. 이렇게 레버리지가 크면 아주 작은 수치의 하락에도 전체자산이 매우 위험에 빠진다. 이 두가지 요소의 신호를 읽지 못한 미국의 금융계는 2007년 서브프라임 모기지 사태로 붕괴한다. 

 정치평론가나 전문가들도 매우 형편없는 예측을 한다. 터틀록이 15년간 조사한 바로는 정치전문가들이 절대로 일어나지 않을 것라고 공언한 사건의 15%가 실제 발생했다. 그리고 반드시 일어날 것이라 예측한 사건은 25%가 발생하지 않았다. 상당히 엉터리인 셈이다. 전문가에는 두 유형이 있는데 고슴도치형과 여우형이다. 고슴도치형은 비장한 생각을 하고 세상에 대한 지배적 원칙을 선호하며 고집스럽고 질서정연한 것을 선호한다. 이들은 자신만만하지만 실제적으론 더 못한 예측을 한다. 여유형은 사소한 생각을 하고 문제해결에 대해 다양한 접근을 한다. 자기비판적이고 경험적이고 조심스럽지만 이로 인해 더 나은 예측을 많이한다. 하지만 불행이도 우리가 많이 접하고 방송과 대중의 주목을 받는 것은 단연 고슴도치형이다. 과감하고 선정적이며 확실하게 말하기 때문이다. 여우형들은 공부를 많이 하여 학위가 높고 정보량이 많을 수록 더 정확한 예측을 하는 경향이 있지만 고슴도치형은 정반대로가 된다. 그들은 자기 편견이 강해 정보와 학위가 강해질수록 스스로의 편견을 오히려 강화하기 때문이다. 

 기상예보도 무척 예측이 어려운 분야다. 예측이 어려운 것은 초기조건을 정확히 산정하는 것이 매우 어렵고 예측 범위가 다양하며 광범위하기 때문이다. 기상조건은 선형적이지 않고 지수연상으로 계산되는 항목이다. 때문에 초기 조건이 잘못되면 결과가 엄청나게 달라진다. 덧셈의 경우 1만큼 잘못 기입하면 답이 겨우 하나차이지만 지수연산의 경우는 수배, 혹은 수십배의 차이가 만들어진다. 거기에 예측해줘야하는 지역이 너무 광범위하다. 각 지역은 하나하나의 그리드로 쪼갤수 있는데 이 또한 3차원이다. 가로, 세로에 높이까지다. 해당 지역의 지형차이까지 고려하면 변수는 정말 상당해진다. 하지만 그럼에도 기상예보는 꾸준히 발전해왔다. 1980년대만 해도 허리케인의 상륙반경은 560km 범위로 예보되었지만 지금은 160km정도다. 때문에 경보도 더욱 빠르게 내릴수 있다. 이처럼 태풍의 이동경로는 좀 상세해졌지만 그 강도의 예측은 아직도 쉽지 않다. 

 지진의 예측은 더욱 어렵다. 그래도 기상은 육안으로 볼수 있고 측정할 수 있는 부분이 많지만 땅속은 전혀 그렇지 않다. 측정할수 있는건 막상 지진이 났을때 뿐이다. 지열이나 마그마의 이동 혹은 단층의 이동등 여러가지 수치가 측정이 매우 어렵고 마땅한 방법도 없다. 우리가 할 수 있는 것은 지진이 판들의 경계 부분에서 주로 발생할 수 밖에 없고, 지진의 빈도와 규모의 상관관계가 반대라는 것이다. 지진의 규모가 커지면 커질수록 그 발생 빈도는 기하급수적으로 떨어진다. 진도가 1커질때마다 발생건수는 1/10씩 감소한다. 이렇게 계산하면 진도 7-8까지의 지진은 제법 그럴듯한 예측 곡선이 그려진다. 하지만 진도 9이상의 지진이 문제다. 역사적 기록으로 남겨진 진도 9이상의 지진을 매우 적다. 때문에 곡선이 9부분에서 급감하게 그려진다. 하지만 이는 사실이 아니며 잘못된 신호다. 9이상의 지진도 이어지는 곡선으로 그려야한다는게 저자의 생각이다.

 경기예측도 어렵다. 1993년에서 2010년까지 18년간 전문가 예측 GDP성장률은 표준편차를 적용해 90%의 예측구간을 고려하여 적용하여도 무려 6번이 이 수치를 벗어났다. 그리고 이 90%예측 구간은 수치로 GDP 6.4%다. 성장률 0에서 6.4%는 대단한 불황과 큰 호황의 차이에 달한다. 경제예측이 어려운 이유는 우선 경제통계자료만으로 인과관계 결정이 매우 어렵고, 경제는 항상 움직이므로 지금 유효한 것이 향후 쓸모없는 자료로 바꾸기 일쑤이며, 경제전문가들이 만들어내는 예측 자료가 형편없이 그것을 활용한 예측 역시 쓸모없어진다는 점에 있다. 

 감염병 예측도 어렵다. 미국은 신종플루 발병 시점 그 위험도를 과다 예측하여 지나친 준비를 하는 바람에 낭패를 본적 있다. 그리고 이번 코로나19에서는 정반대의 예측을 해 역시 낭패를 보고 있다. 질병의 확산을 예측하는데 가장 유용한 수치는 기본감염재생산지수다. 이것이 1이 넘으면 이론적으로 전개체군이 모두 감염된다. 스페인 독감은 이 수치가 3, 천연두는 6, 홍역은 무려 15이며 말라리아는 150이나 된다. 문제는 이 재생산지수에 대한 믿을 만한 추정치가 나오는 시점이면 그 감염병이 그 지역을 이미 휩쓸고 지나가버려 관련 통계자료를 정밀하게 분석할만한 시간이 없다는 점이다. 

 이처럼 변수가 많고 쓸데없는 소음이 많은 여러 분야에서 유용하게 쓸만한 신호 찾기 방법으로 저자는 행위자 기반 모델과 베이즈정리를 제시한다. 행위자 기반 모델은 한 국가나 전 세계를 대상으로 시뮬레이션 하는 방법이다. 지수방정식 계산과 그 계산을 수행할 수퍼 컴퓨터가 필요하다. 그리고 인구에 대한 정확한 조사가 필요한데 그러므로 이 방법은 설문조사의 정확성에 대한 의존도가 매우 크다. 그러나 인간은 특정행위에 대해 자기충족, 부정적 예언에 잘 빠져들고 언론 보도등의 홍보에도 크게 영향을 받는다. 때문에 현재로썬 그 이용과 검증이 쉽지 않아 보인다. 훗날 자신보다 자신을 더 잘아는 개인별 인공지능이 보급되고 이들이 제공하는 정보가 빅데이터로 통합되며 이를 분석하는 인공지능과 전문가가 협업하는 일이 가능해진다면 큰 의미가 있어질수 도 있는 기법이겠다.

 베이즈 정리는 합리성을 확률의 문제로 본다. 베이즈 정리는 알려진 3개의 변수와 알려지지 않은 1개 변수가 동원된 대수적 표현이다. 베이즈 정리는 조건부확률과 관련이 있는데 이는 어떤 사건이 일어났다는 전제아래 이론이나 가설이 참이냐 거짓이냐를 확률적으로 따지는 것이다. 예를 들어 한 여자가 자신의 남편의 소지품에서 여자의 속옷을 발견했다. 여자는 남편이 바람을 피웠다라는 의심을 하게 된다. 이를 베이즈 정리로 따지면 다음과 같다. 

[사전확률]

남편이 바람을 피울 확률의 초기 추정치로 x 다.     4%

[새로운 사건 발생]

남편이 바람을 피운다는 조건아래에서 속옷이 등장했을 확률  Y 50%

남편이 바람을 피우지 않는다는 조건아래에서 속옷이 등장했을 확률 Z 5%

[사후확률]

여자가 속옷을 발견했다는 조건 아래에서 남편이 바람을 피우고 있을 가능성에 대한 추정치로

xy/[xy+z(1-x)]로 29%다.


베이즈 정리는 합리적으로 보이지만 이 공식을 좌우하는 것은 사실상 X 로 남편이 바람을 피울 확률의 초기 추정치를 어떻게 설정하느냐다. 위의 예에서는 4%로 매우 낮은데 이는 평소 남편이 매우 믿을 만한 사람이라는 뜻이다. 실제 믿을 만한 남편의 소지품에서 다른 여자의 속옷이 나오는 것은 의심스러운 행위지만 실제 그가 바람을 폈을 확률을 낮춘다. 하지만 평소 품행이 단정치 못한 남편이었다면 초기 추정치는 매우 높아지고 그렇다면 사후확률 값은 매우 높아지게 된다. 즉, 베이즈정리가 유효하려면 오랜 경험과 통찰, 그리고 신호를 잘 파악하는 능력이 매우 중요하다는 이야기가 된다. 역시 인공지능과 빅데이터 기술의 결합으로 데이터 분석능력이 뛰어난 인공지능이 초기 추정치를 잘 잡는다면 상당히 유용한 방법이 될 듯하다. 인간이 초기 추정치를 결정해야 하는 지금은 상당한 전문가가 아니면 어려운 방법이라 생각된다.

 이 책 '신호와 소음' 은 최근 개정판이 나왔다. 책 자체가 10년 전 책이라 시대에 뒤떨어지는 부분이 좀 있는데 패턴찾기에 대한 기술적 발전과 시대적 변화 부분이 잘 반영되지 않았을까싶다. 빅데이터로 무척이나 많아진 소음속에서 신호를 찾는 과정은 인간사회의 발전을 위해서 앞으로도 개인에게나 사회에게 무척 중요할 것이다. 다만 신호를 찾는 공식이나 인공지능 과정도 오염될 가능성이 충분히 있기에 이에 대한 주의도 많이 기울여야 할 것으로 보인다. 


댓글(1) 먼댓글(0) 좋아요(33)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
북다이제스터 2021-12-27 13:56   좋아요 0 | 댓글달기 | URL
말씀하신 것처럼 베이즈 정리, 즉 조건부 확률은 초기 추정치(x)가 매우 중요한 듯합니다.
세상에 일어나는 결과는 발생 가능성이 가장 높은 원인 때문에 일어난다는 아주 단순하고 명백한 원리인 것 같습니다.^^