-
-
모두 거짓말을 한다 - 구글 트렌트로 밝혀낸 충격적인 인간의 욕망
세스 스티븐스 다비도위츠 지음, 이영래 옮김 / 더퀘스트 / 2018년 6월
평점 :
구판절판
네이트 실버는 메이저리그 야구선수의 성적을 예측하는 시스템인 페코타를 개발해 놀라운 적중률을 보였다. 특히 2008년 미국 대선에서 50개 주 중 49개 주의 결과를 정확히 예측하고 총선에서도 35명 상원의원 당선자를 모두 맞춰 유명해졌다. 2012년 미국의대선에서도 여론조사기관이 롬니의 승리를 예측할 때 오바마의 승리를 예측하고 50개 주의 결과를 모두 맞췄다. 이 책 '모두 거짓말을 한다'는 그토록 놀라운 적중률을 보였던 네이트 실버가 정작 트럼프의 당선을 맞추지는 못했다는 것에서 시작할 수 있는 책이다.
오바마가 당선 되었을 때 많은 사람들이 가졌던 생각은 이제 '인종주의'라는 것은 일부 극소수층의 백인들에게만 남아있을 것이란 믿음이었다. 각종 여론조사에서는 이를 뒷받침 하듯 오바마가 흑인이라는 사실을 신경쓰지 않는다는 결론을 내렸다. 하지만 이런 생각을 해볼 수 있을 것이다. 누군가 내 앞에서 혹은 전화로 당신은 '깜둥이'라는 단어를 쓰시나요. 라고 물어온다면 나는 설사 상대를 처음 봤거나 목소리만 들을 뿐이면서도 '아니요'라고 답을 하게 될 것이라는 점이다. 실제로 여론조사에서 흑인을 신경쓰지 않는다는 사람이 그렇게 많았음에도, 오바마가 당선되는 날 오바마가 포함되는 검색어에는 '깜둥이'가 포함되었다. 심지어 일부 주에서는 '최초의 흑인 대통령'이 아니라 '깜둥이 대통령'을 더 많이 검색했다.
저자는 구글에 지극히 개인적이면서도 은밀한 검색을 하는 것을 두고 '인터넷 자백약'이라고 표현한다. 실제로 범죄자가 포털에 범죄의 방법 등을 검색한 기록 때문에 불리한 증거로 이용되는 경우를 종종보곤 한다. 그만큼 검색창에 쓰는 말은 개인적이면서도 솔직하다. 저자는 바로 이 점에 착안하여 다양한 정보를 분석하려고 시도한다. 심지어 '트럼프 클린턴'으로 검색하는 지, '클린턴 트럼프'로 검색하는 지에 따라 그 득표율이 달라진다. 당연히 지지하는 후보를 앞으로 놓고 검색하게 돼있으며 결과 역시 그랬다. 실제 클린턴의 승리가 점처지던 중서부 주요 주에서 트럼프를 앞에 놓고 검색하는 양이 늘어 났고 이는 트럼프 당선에 큰 힘이 되었다. 결정적으로 트럼프 지지율이 높았던 지역은 4년 전 '깜둥이'라는 검색이 많았던 지역이었음이 밝혀졌다.
정보가 많다는 것이 곧 자산으로 생각되던 시대는 이미 지나갔다. 이제 정보는 원하는 것 이상으로 주어지고 있으니 그것을 어떻게 분석하고 이해하느냐가 관건인 때가 되었다. 네이트 실버가 '신호와 소음'에서 지적하는 것 역시 수많은 소음 같은 정보속에서 어떻게 유의미한 '신호'를 잡아내느냐가 중요하다는 사실이었다. 우리 나라의 경우는 좀 다르지만 적어도 미국에서 구글의 영향력은 절대적이다. 그것은 그 데이터가 많아서가 아니라 그것을 사용하는 사람들이 그 앞에서는 그만큼 솔직해지기 때문이다. 이 자료들은 적절하게 활용만 된다면 정치뿐 아니라, 상품 판매, 여론 파악, 경제 예측 등 다양한 분야에서 쓰일 수 있다.
저자는 다양한 데이터 분석의 사례를 소개한다. 프로이트의 정신분석학 역시 설명할 수 있다고 한다. 프로이트는 누군가가 보행자를 뜻하는 pedestrian을 penistrian으로 잘못 썼다면 그것은 남성의 성기를 갈망하는 욕구의 분출이라고 설명한 바 있다. 실제 마이크로소프트에서는 '에러봇'이라는 프로그램을 통해 사람들의 오타 빈도를 적용해 통계를 내 보았다. 결과적으로 사람들은 성적으로 해석되는 실수를 유의미하게 많이 하지 않았다. 프로이트가 주장하는 다른 이론(오이디푸스 컴플렉스 같은)의 경우도 그의 주장만큼 대다수의 사람들이 그러한 욕망을 감추며 살아가는 것은 아님을 구글 트렌드는 보여주고 있다.
저자는 이밖에도 췌장암에 걸린 사람들이 공통적으로 검색하는 내용이나, 주택가격이 오를 때 미국인들은 '80/20 융자', '주택 건축업자', '평가율' 같은 문구를 검색하고 떨어질 때는 '쇼트 세일','언더워터 모기지', '융자구제' 같은 검색어가 급증한다는 것을 발견했다. 만약 지금처럼 코로나가 퍼지는 중이라면 아마도 '발열','두통','코로나 증상' 등의 검색이 급증하는 지역에 코로나 확진자가 많이 발생할 것을 예상할 수 있을 것이다. 데이터의 이용은 이 책 전체에서 꾸준히 등장하고 있는데 일례로 좋은 와인을 고르는 방법이 그렇다. 우리는 한 지역에서 나는 포도로 생산한 와인의 맛은 숙성연도의 차이만 있을 것이라고 생각하지만, 실제 영향을 미치는 것은 겨울의 강수량과 생장기 평균 기온이 플러스 요인, 가을의 강수가 마이너스 요인이었다.
책에는 정말 다양한 사례의 데이터 분석이 나와 있다. 물론 가장 개인적이면서 비밀스러운 이야기인 성적인 이야기도 상당부분 차지한다. 그런 사례 말고도 '뉴욕 메츠'를 간절히 응원하지만 동생은 하지 않는지, 폭력적인 영화가 정말 범죄율을 상승시키는 지, 구글이 이용자들의 패턴을 분석해서 검색결과를 10개만 보여주는 지, 20개 보여주는 지, 메뉴 구성은 어떻게 해서 효과를 극대화 했는 지에 대해서도 설명한다. 책의 말미에 정작 책을 끝까지 읽은 사람이 얼마나 될까에 대해 적어 놓았다. 우선 그가 이 책을 쓴 이유는 스티븐 레빗의 '괴짜 경제학' 때문이라고 밝혔다. 개인적으로 그의 책을 좋아해서 충분히 이해가 가는 부분이었고 실제 이 책의 구성이 '괴짜 경제학'과 유사한 구조를 띄고 있다. 조던 엘렌버그는 사람들이 책을 끝까지 읽었는 지를 밝히기 위해 빅데이터를 이용했는데, 책의 인용문이 앞부분에 집중 되었는지 뒷부분에 집중되었는지를 보는 식이다. 애석하게도 노벨 경제학상을 수상한 대니얼 카너먼의 '생각에 관한 생각'은 7퍼센트 밖에 끝까지 보지 않은 셈이다. 굳이 나는 끝까지 읽었다고 표시하기 위해 여기 결론 부분의 글을 옮겨 놓는다.
따라서 나는 이 책을 적절한 방법으로 끝맺을 것이다. 데이터에 따라서, 사람들이 하는 말이 아니라 사람들이 실제로 하는 행동에 따라서 말이다. 나는 친구들과 맥주를 한잔하고 이 망할 결론을 그만 쓸 것이다. 빅데이터가 말하길 여기까지 읽고 있는 사람은 극히 소수니까. (p.324)