빅데이터 인문학 : 진격의 서막 - 800만 권의 책에서 배울 수 있는 것들
에레즈 에이든 외 지음, 김재중 옮김 / 사계절 / 2015년 1월
평점 :
장바구니담기


구글이 전세계의 모든 책을 디지탈화하는 작업에 착수한 지 9년만에 3천만권을 디지털화했다. 그리고, 이 책의 저자 두 사람은 그 방대한 양의 책들에 대한 정보를 보여주는 도구를 개발했다. 그것이 엔그램뷰어다. 이 책은 엔그램뷰어의 탄생 배경과 엔그램뷰어로 할 수 있는 것에 대한 얘기다. 빅데이터에 대한 시대적 통찰을 얻을 수는 있지만 빅데이터라는 거대한 흐름 자체를 설명해주는 책은 아니다. 엔그램이 구글북스라는 구글의 디지털 라이브러리를 효과적으로 보여주는 도구이고, 구글북스 자체가 빅데이터이고, 그것을 이용해서 무언가를 할 수 있는 방법은 너무나도 쉽고 재미있고 직관적이기 때문에, 누구라도 빅데이터를 경험해볼 수 있다는 측면에서 볼 때, 빅데이터의 범주에 들어가지만, 제목 <빅데이터:진격의 서막>은 오버다. 항상 원제 uncharted(미개척의, 미지의)를 봐야한다. 원제처럼 새롭다. 몰랐던 세계를 들여다볼 수 있는 방법, 그 세계를 들여다보면서 무엇을 통찰할 수 있는지를 알게 되는 것은 달이나 화성 같은 완전 미지의 세계를 살살 딛는 것보다 훨씬 현실적이고 코앞에 있다. 당장 누구라도 컴퓨터나 휴대폰만 있으면 해 볼 수 있다. 그게 무엇일까. 


캐런 라이머의 <전설적, 어휘적, 다변적 사랑>이라는 책이 있다. 이 책은 연애 소설 한 편을 골라, 전체 텍스트를 알파벳 순으로 정렬해서 재배치한 책이다. 그러니까 맨 첫장은 A A A A A A A A A A A A A A A A A A A A A A A A A A A...이렇게 시작하고 또 어디쯤 가면 몇 페이지고 아름다운 아름다운 아름다운이 계속되는 책이다. 이렇게 정렬해 놓은 단어들의 목록은 그 책에 대한 대략적인 통찰을 준다. 아름다운 이라는 형용사가 그 책에서 쓰인 단어 중 가장 많이 쓰인 단어라는 점을 비롯해 특정 단어들의 빈도가 주는 통찰들 말이다.


구글이 가진 그 방대한 책에 대한 메타 데이터와 컨텐츠는 민감한 지적재산권에서 자유롭지 못하다. 그래서 저자 두 사람이 생각해 낸 것이 캐런 라이머의 아이디어다. 그들은 구글북스의 빅데이터, 롱데이터에서 단어들의 갯수를 세어 시대별로 그래프를 그려주는 툴을 만들었다. http://books.google.com/ngram 을 들어가면 바로 확인 가능하다. 책을 덮고, 사이트를 들어가서 몇몇 단어만 입력해봐도, 대략 이 책이 뭘 얘기하고 있겠구나 예측할 수 있다. 그렇다. 엔그램으로 뭘 할 수 있나. 무궁무진하다. 그렇다면 저자들은 무엇을 했나. 재미있는 걸 했다. 


우선 그들은 언어의 변천사를 살폈다. 엔그램을 통해 불규칙동사와 규칙동사의 역사를 탐험했다. 나도 따라해봤다. 기억엔 없지만 학창시절의 어느 화창한 오후 우리들은 trhive/throve/throven 형태의 불규칙동사를 외우고 또 외웠을 것이다.burn/burnt/burnt 형태는 기억난다. 흑흑 억지로 구겨넣었어야 했었을 기억나지 않은 시절을 생각하니 분하고 원통해서 눈물이 날 지경이다. 바로 확인해봤다.






그렇다. trhove는 1920년대에, burnt는 1880년대에 이미 미국 영어에서는 마지막 영광을 누리고 있었다. 잘 쓰이지도 않아 잘 알고 있지 않았던 미국 사람들은 우리가 자장면과 짜장면을 가지고 언쟁을 하듯 치고박고 하다가 자연스럽게 짜장면을 받아들인 것처럼 trhived와 burned를 자연스럽게 받아들이고 책속에 더 많이  썼었던 것이다. 만일 우리가 그 시절 이런 것들을 외우고 있었다면, 우리는 죽어가고 있는 언어를 배운 것이다. 책에는 영어에서의 이러한 불규칙동사와 규칙동사의 어원들과 변천사들을 언어학적 관점에 아주 재미있게 설명한다.  


두 사람은 엔그램을 통해 baby와 sitter가 합쳐져 baby-sitter가 되고 하이픈이 없어져 babysitter가 되는것과 같이 두 개의 합성어가 생기는 과정을 예로 들어, 새로운 언어가 생겨나고 성장하고 사멸하는 과정을 들여다보고, 지난 50년 사이에 급속도로 언어가 성장하는 현상에 대해서도 논한다. 


그 다음에 주목한 것이 명성이다. 어떤 사람의 이름을 엔그램에 넣으면 정확하게 그 사람이 언제 얼마나 많은 책에서 언급되었는지라는 아주 명백해 보이는 정량적 명성을 얻어낼 수 있다. 1800년부터 미국에서 가장 유명한 사람들을 차례로 넣어 분석한 것, 같은 해에 태어난 50명의 가장 유명한 사람들을 대상으로 분석한 것 등의 사례를 통해 이들이 얻어낸 사실은, 명성이란 그 누구의 명성이라 하더라도 비슷한 패턴의 그래프를 따라 출생 후 20~40년 후부터 책에 거론되기 시작하며, 사망 직후 높아지고 어느 한계에 도달하면 하향 곡선을 따른다는 것이다. 중요한 것은 이러한 추세가 현재로 가까와올 수록 명성이 최고에 오르는 속도도 빠르고 사라지는 것도 매우 빠르게 이루어진다는 사실이다. 저자들은 어느 무명씨의 유명한 말 "미래에는 모두가 15분만에 유명해질 것이다"을 예로 들어 설명한다. 1800년대 집단은 사전에 언급하는 수준으로 거론하는 빈도를 가지는 명성데뷔 연령이 43세였는데, 20세기 중반부터는 29세로 낮아졌다.  이 명성이 높아지는 속도도 날이 갈수록 빨라져서 1800년대에는 43세에 데뷔에 75세에 절정에 이를 때까지 8년이 걸리는데, 1950년대 집단의 경우 명성이 두 배로 늘어나는 3년으로 짧아졋다. 빠르게 이룬 것은 빠르게 거둔다. 이 명성이 사라지는 속도를 보자. 1800년대에는 명성이 떨어지는 반감기가 120년이었는데, 1900년 71년으로 떨어졌다.


이제 더 중요한 것을 보자. 엔그램을 이용하면, 어떤 비극의 시대에 어떤 사람들이 어떻게 역사에서 사라져갔는지를 알 수 있다. 분서가 이루어졌던 나치 시대에 블랙리스트에 올랐던 저자들의 이름들은 한결같이 나치의 괴벨스가 '제국문화부'를 신설했던 1933년을 기점으로 갑자기 사라진다. 파울 클레, 마르크 샤갈, 바실리 칸딘스키 등의 예술가들이 탄압받던 시기에 그들의 이름은 독일어로 된 모든 텍스트에서 사라진 것이다. 이같은 현상은 '자유를 수호'하겠다고 정의의 코스프레를 하던 미국에서도 마찬가지였다. 미국 정부가 1947년 했던 짓은 나치가 미국으로 도피해야 했던 예술가들에게 했던 방식과 조금도 다르지 않다. 할리우드 텐이라고 불리운 블랙리스트에 올린 사람들은  그 사건 이후 10여년간 메이저 스튜디오에 이름을 올리지 못했다. 그들의 경력에 미친 충격은 즉각적이고 파괴적이었다. 스탈린이 트로이카로 트로츠카를 제압하고 정권을 잡은 후, 숙청한 트로이카들과 트로츠키, 그리고 그들과 함께 숙청당한 2000만명에 속했던 수많은 사람들은 그렇게 모두 러시아 어로 된 텍스트 바깥으로 쫓겨났고, 그 중에서도 가장 큰 명성을 가졌던 트로츠키와 트로이카들마저도, 후르쇼프 이후에도 평판을 되찾는데 부분적으로만 성공했고 그것도 여러 세대가 걸쳐서였다. 




댓글(0) 먼댓글(0) 좋아요(4)
좋아요
북마크하기찜하기 thankstoThanksTo