커피를 줄이라는(정확하게는 마시지 말라는) 의사의 권고에 따라 둥글레차를 마시다 보니 평소 무관심했던 사람에게 '친구 신청'이라도 한 듯이 어색하다. 설 연휴를 앞두고 평소보다 일찍 배송된 주간지들을 훑어보다가 시사IN(설합병호)에 실은 리뷰를 옮겨놓는다. 수요일 아침에 부랴부랴 썼던 것으로 <빅데이터 인문학>(사계절, 2015)을 다뤘다. 아직 초보적 단계처럼 보이지만 '빅데이터 인문학'이 인문학의 지각변동을 가져올지도 모르겠다는 인상을 받았다. 이에 대해서는 번역본 부록으로 실린 전문가 좌담을 유용하게 참고할 수 있다.
시사IN(15. 02. 21) 클릭 한 번으로 800만 권을 읽다
바야흐로 빅데이터 시대다. 과연 빅데이터는 학문, 특히 인문학에 어떤 변화를 가져올 것인가. 클릭 한 번으로 800만권의 책을 검색하는 ‘구글 엔그램 뷰어’의 개발자 두 사람이 쓴 <빅데이터 인문학>은 한 가지 실례를 보여준다. 번역본의 부제는 심지어 ‘진격의 서막’이다. 원제는 ‘전인미답(Uncharted)’으로 빅데이터를 분석할 수 있는 새로운 툴(수단)의 개발과정과 이로 인해 가능해진 새로운 탐구영역 소개에 초점을 맞추고 있다면, 한국어판은 강도를 좀더 높였다. ‘빅데이터가 일으킬 인문학 혁명’으로 그 의미를 격상시켰다.
빅데이터란 말이 등장한 것은 몇 년 되지 않는다. 전문가에 따르면 대략 2010년부터야 쓰였는데, 그 원래적 의미는 ‘다루기에 너무 큰’ 데이터란다. 이제껏 다뤄보지 못했던 거대한 데이터의 축적이 가능하고 그것을 소유할 수 있게 된 게 빅데이터 시대의 첫 번째 의미다. 그리고 이를 분석할 수 있는, 즉 그 막대한 데이터에서 ‘신호와 소음’을 분리할 수 있는 툴이 이제 막 개발되고 있다는 것이 두 번째 의미다. 이 두 가지가 말하자면 빅데이터 혁명의 조건이다.
구글 엔그램 뷰어의 발단이 된 건 2004년부터 시작된 ‘구글 북스’ 프로젝트다. 세계의 모든 책을 스캔해서 디지털화하는 엄청난 규모의 프로젝트인데, 지구상에 존재하는 1억 3000만 권 가운데 현재까지 3000만권 이상의 책을 디지털화했고 2020년까지는 모두 디지털화할 수 있을 거라는 전망이다. 현황만으로도 3000만권 이상을 소장한 디지털도서관이 생긴 셈인데, 현재로서는 미의회도서관(3300만권)만이 장서 수에서 조금 앞설 뿐이고 이 또한 곧 추월될 것이다.
물론 이렇게 모아놓기만 했다고 대단한 일이 벌어지는 건 아니다. 곧 인간이 읽기에는 너무 많은 분량의 텍스트다. 그럼 누가 읽는가. 엄청나게 빠른 속도로 읽어나가는 로봇! 갈릴레오에게 망원경이 근대 천문학과 과학혁명을 가능하도록 이끈 새로운 관찰 도구였다면, 저자들이 고안해낸 엔그램 뷰어라는 렌즈는 인간 문화의 역사적 변화를 관찰하는 새로운 도구다.
엔그램 뷰어는 명령어만 입력하면 설정기간 동안의 빈도수를 그래프 곡선을 통해서 보여준다. 누가 얼마나 유명하며 그 명성은 어떤 등락을 보여 왔는지, 어떤 인물이나 사건이 역사적 기억 속에서 어떻게 억압되고 지워졌는지, 새로운 아이디어나 발명품이 어떤 속도로 전파되었는지 등 다양한 관심사에 답해준다. 이렇듯 새로운 관찰 도구를 통해서 문화와 역사에 접근하는 것을 ‘컬처로믹스’라는 신조어로 부른다. 이 컬처로믹스의 세계에서 우리가 무엇을 더 발견할 수 있을지는 정해지지 않았다. 말 그대로 ‘서막’이고, 어쩌면 우리는 예단할 수 없는 혁명의 문턱에 서 있는지도 모른다.
막대한 비용이 들어가는 거대과학은 자연과학에만 해당하는 것이었다. 힉스 입자를 찾기 위한 입자가속기 개발과 실험에 90억 달러가 들고, 인간 게놈 프로젝트에 30억 달러가 소요되는 식이다. 그와는 비교도 안 되는 적은 비용이 들어가긴 했지만 책과 역사기록의 디지털화는 인문학에서도 거대과학 스타일의 작업이 가능하게끔 만들었다. 돌이켜보면 대학 신입생 시절 도서관에 가서 카드식 도서목록을 뒤져서 필요한 책을 찾은 다음 대출신청서를 작성하던 게 불과 한 세대 전이다. 어느새 그런 카드식 목록 검색은 온라인 검색으로 대체되었고, 상당수의 책과 논문자료는 전자책의 형태로 열람할 수 있다. 한 세대 더 거슬러 올라가면 복사기가 없어서 모든 자료를 필사하고, 용어색인을 만들기 위해 초인적인 노력으로 단어들을 일일이 세던 때가 있었다. 그 중간에 낀 세대로서 ‘데이터토피아’ 시대의 학문이 어떤 모습이 될지 예견하기 어렵다. 아마도 ‘멋진 신세계’이지 않을까.
15. 02. 14.