빅데이터 인문학 : 진격의 서막 - 800만 권의 책에서 배울 수 있는 것들
에레즈 에이든 외 지음, 김재중 옮김 / 사계절 / 2015년 1월
평점 :
장바구니담기


[인문 서평] 빅데이터 인문학 : 진격의 서막 - 800만권의 책이란 지식의 보고가 말하고 있는 것은?




이 책은 구글이 만든 야심적인 프로젝트 "엔그램 프로젝트"에 대한 1차 보고서 같은 성격의 책이다.

구글이 10년간 전 세계의 책 3,000만권을 스캔하여 디지털화하여 각 책에 담겨 있는 단어의 빈도수와 경향을 파악하려는 의도로 만들어진 엔그램 프로젝트는 이미 인문학의 새로운 혁명을 예고하고 있다. 

일단 엔그램에 대해 알기 위해 엔그램에 대한 간단한 기사의 내용을 올린다.


'과학자와 기자가 만드는 뉴스와 비평' 이라는 표어로 한겨례 신문사에서 2010년 2월경 창간한 사이언스온에서 '낱말의 적자생존에 관한 재미있는 기사' [1] 를 보았다. 기사에서는 낱말들도 진화하는데, 진화하는 과정에서 새로운 낱말이 탄생하거나, 기존 낱말이 사라진다고 한다. 정량적인 수치 자료를 얻는데 사용한 도구는 구글 엔그램이다. 


"이 분석이 인터넷기업 구글이 구축한 7개 언어 출판물의 단어 변천을 검색할 수 있는 ‘구글 엔-그램(Google n-gram)‘ 데이터베이스를 활용해 이뤄졌다고 밝혔습니다 (엔-그램은 현재 세계 도서의 4%를 데이터베이스로 구축했다고 알려졌는데, 이곳에서 예컨대 “love”라는 낱말을 써넣고 검색하면 “love”가 현재보다 19세기에 훨씬 더 많이 쓰였음을 확인할 수 있다)."

기사는 연구원들이 발표한 논문 [2]을 바탕으로 소개하고 있는데, 이 논문의 주장의 근거는 책에서 쓰인 단어의 추이를 살펴보면 낱말의 탄생과 소멸을 진화론처럼 설명할 수 있다고 보았다. 단어의 추이를 알려주는 것은 구글의 엔그램이 해주는 것이고, 연구원은 합리적인 실험 방법을 통해 나온 결과를 말이 되게 설명했다. 구글 엔그램은 세계 도서의 약 4% 정도를 DB화 했다고 하는데, 앞으로 DB화가 진행될 수록, 이 연구의 후속판이 나올 것이라 예상된다. (http://egloos.zum.com/puyopuyo/v/2290255에서 인용)


이 책은 이러한 엔그램에 대한 내용에 대해 이프로젝트가 할 수 있는 일이 무엇인지? 그리고 그 파장력은 무엇인지? 그리고 기술의 발전이 인문학에 어떻게 작용할 것인지까지 다양한 접근과 고찰을 하고 있다.
일단 엔그램으로 인해 언어의 탄생과 성장과 사멸이 어떻게 이루어지는 지를 알게 되었다는 것이다. 그것은 시대의 모든 책의 단어를 검색하면서 그 단어의 사용이 얼마나 자주 이루어지는지를 파악하면서 가능해졌다는 것이다. 
엔그램의 가장 큰 공헌은 영어의 불규칙동사가 언어의 화석이라는 것을 발견했다는 것이다.
원래 모든 동사가 불규칙동사 형태를 갖추고 있었지만 언어의 혼용(가령 스페인어와 섞이는 것 등)으로 인해 새로운 언어의 탄생과 발전이 이루어진다. 이러한 과정에서 규칙동사라는 새로운 언어관습이 정착이 되는데 자주 쓰이는 단어들은 그 사용이 계속 되다보니 원래의 형태를 유지하게 된다는 것이다. 바로 이것이 언어의 화석이라고 말하는 것이다. 일반적인 동사가 -ed를 붙이면 과거형이 되지만 think-thought로 사용되듯이 원래의 형태를 계속 간직하는 현상을 말하는 것이다.
이러한 현상에서 우리는 유명도를 체크해볼 수도 있다. 가령 어느 시대의 유명도에 따라서 그 단어가 많이 사용되었던 것을 알 수 있는데 이 부분을 체크하는데 있어 명성과 미엉성을 구분할 필요가 있다. 미엉성이라고 하는 것은 유명할 수 있는 가능성을 말하는 것이다.
물론 저자가 지적하듯이 앰그래에 대한 한계가 있는 것도 사실이다.
저작권의 문제를 어떻게 해결할지(현재는 저작권이 풀린 도서 위주로 프로젝트를 진행하고 있으면 이북으로 된 것은 쉽게 연결을 시키고 있다), 신문 등 미디어의 부분은 어떻게 할지, 미출간원고에 대한 부분은 어떻게 접근할지, 일반적인 대상(그림이나 예술품 등)은 어떻게 할지 등 다양한 문제가 있지만 기술의 발전으로 인해 이러한 부분도 접근이 가능할 것이라 보고 있다.
결국 앤그램에 대한 접근은 인간의 학습곡선을 파악하는 길이 될 것이다. 물론 이것이 집단학습으로 변환되는 시점까지 생각해야 하겠지만 말이다. 저자가 데이터피아라 강조할 정도로 힘을 주어 말하고 있는 부분은 바로 이러한 집단학습의 방향점을 제시할 수 있는 힘이 엔그램에 있다고 보기 때문이다. 구글의 혁신적인 프로그램이 앞으로 어디까지 갈지는 모르는 일이지만 앞으로 인류의 학습을 선도하게 될 것은 당연하다고 보인다. 이러한 거대 프로젝트가 억압의 권력으로 다가올지 인류의 문화 재창조라는 희망으로 다가올지는 이것을 접근하는 우리들의 몫이 아닌가 하는 생각을 해본다.
이러한 좋은 프로젝트에 대해 생각해볼 수 있는 시간이 되어 정말 좋은 책을 읽었다는 생각을 해본다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo