빅데이터 인문학 : 진격의 서막 - 800만 권의 책에서 배울 수 있는 것들
에레즈 에이든 외 지음, 김재중 옮김 / 사계절 / 2015년 1월
평점 :
장바구니담기


구글은 책이 발명된 이래 발간된 1억 3000여만권의 책 중 3000여만권을 디지털화했다. 다시 그 중 800여만권을 이용해 엔그램뷰어라는 통계용 프로그램을 개발했다. 엔그램뷰어는 어떤 단어를 입력하면 그것의 사용빈도가 시간의 흐름에 따라 어떻게 변해갔는지를 보여준다. 예를 들어 비틀즈를 검색어로 치면 언제 이 단어의 사용이 급상승해서 절정에 이르다 떨어지는지를 확인할 수 있는 것이다. 인권에 대해 궁금하다면 검색어로 인권을 치면 언제부터 인권이라는 단어가 사용되기 시작했는지부터 가장 관심을 끌고 시들어간 시기가 언제인지를 알 수 있는 것이다. 그런데 이런 통계 자료로 우리는 무엇을 알 수 있는 것일까. 


이책 [빅데이터 인문학 : 진격의 서막](이하 빅데이터 인문학)은 엔그램뷰어를 개발한 개발자들이 어떻게 엔그램뷰어를 생각하게 됐고, 이 프로그램을 만들기 위해 구글을 어떻게 설득했는지를 이야기하고 있다. 또한 엔그램뷰어를 이용해 어떤 목적을 달성할 수 있는지, 인문학적 통찰을 얻을 수 있는지를 흥분에 겨워 소개하고 있다. 


[빅데이터 인문학]에서 소개하고 있는 엔그램뷰어가 알려준 사실 중의 하나는 수많은 영감을 줄 수 있을듯하다. 영어 동사의 과거형 분류에서 불규칙동사가 규칙동사보다 먼저 존재했다는 것을 통계를 통해 증명하고 있는 부분이다. 불규칙동사가 갖고 있는 규칙성에서 벗어나는 동사들이 나타나면서 이들에게 어떤 규칙(-ed 접미사)을 주기 시작했고, 점차 시간이 지나면서 아주 자주 쓰는 단어 이외의 것들은 점차 이런 규칙을 따라 변화했다는 것이다. 그런 변화로 인해 규칙동사가 대세를 이루고, 불규칙동사는 예외인 것처럼 여겨지게 됐다. 다만 어떤 불규칙 동사들이 여전히 예외로 남아있는가를 살펴보니 사용빈도가 높은 동사들이었다. 이 사용빈도는 '지프의 법칙'을 따르는데, 이는 1등과 2등의 빈도가 절반으로, 다시 2등과 3등의 빈도가 절반으로 떨어지는 하향의 사선을 그리고 있다. 그리고 지프의 법칙은 동사 이외에 우리 사회 현상의 많은 부분을 설명해준다. 


문제는 표본과 해석이다. 엔그램뷰어는 단행본만을 대상으로 했다. 단행본과 뉴스는 단어가 말하고자 하는 속성이 다르다. 최근엔 트위터, 페이스북, 인스타그램 등을 비롯해 댓글 속에서 시대의 조류를 읽으려는 경향이 있다. 하지만 이런 SNS는 진짜 속내를 드러내기 보다는 잘 보이려하거나 튀어보이고자 하는 속성으로 인해 오해의 가능성을 품고 있다.

이런 표본의 문제를 제쳐두고, 통계 수치가 나온 그 결과를 해석하는데에서도 연구자 또는 발표자의 편견이나 선입견이 개입할 여지가 크다. 통계는 그저 수치만을 보여줄 뿐 그것의 원인이나 영향력, 변수 등을 말해주지는 못한다. 따라서 어떤 관점으로 그 숫자들을 해석하는가에 따라 전혀 다른 내용의 결과가 나올 수 있다. 마치 사주팔자의 괘는 정해져있지만, 점집에 따라 그것을 해석하는데 차이가 있어 운명이 점집에 따라 달라지듯이 말이다. 


그럼에도 불구하고, 우리는 빅데이터라 부를 수 있는 세상을 읽는 좋은 수단을 갖게 됐음을 부인할 수는 없다. 그 수단 중의 하나이자 시발점이라 할 수 있는 엔그램뷰어가 어떻게 만들어지고 활용될 수 있는지를 이책 [빅데이터 인문학]을 통해 확인해볼 수 있다. 인간의 욕망이 어떻게 통계에 드러나게 될지 궁금해진다.    


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo