빅데이터 인문학 : 진격의 서막 - 800만 권의 책에서 배울 수 있는 것들
에레즈 에이든 외 지음, 김재중 옮김 / 사계절 / 2015년 1월
평점 :
장바구니담기


 

현재 한 사람이 연간 만들어내는 데이터양은 1테라바이트 정도라고 합니다. 손으로 쓰면 토성을 스물다섯 번 왕복할 수 있는 양이라네요. 이 양도 2년마다 두 배씩 늘고 있다 하고요. 이게 디지털 형태여서 인간학 역사 연구가 가능하게 되었습니다. <빅데이터 인문학>은 이런 빅데이터를 이용한 다양한 실험 가운데 하나에 관한 이야기입니다.


구글 북스 라이브러리 프로젝트가 디지털화한 3,000만 권의 책 중에서 추려낸 800만 권의 책으로 검색창에 단어를 입력하면 지난 500년간 사용된 빈도 추이를 그래프로 보여주는 프로그램이 바로 엔그램 뷰어입니다.


 

 

이런 그래프로 나타나는데 저도 몇 번 해봤더니 상당히 매력적이더라고요. <빅데이터 인문학>은 바로 엔그램 뷰어를 탄생시킨 두 개발자가 이 프로그램의 탄생 배경과 쓰임새에 관해 알려주는 책입니다. 


디지털 눈을 통해 보는 역사적 변화. 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 연관된 빅데이터 혁명으로 우리 자신과 사회의 본질을 더 효율적으로 탐색할 수 있는 관찰 도구가 창조된 셈입니다. 이것이 인문학을 바꾸고, 사회과학을 변형시키고, 상업세계와 상아탑의 관계를 재조명할 것이라고 합니다. 디지털화된 개인적, 역사적 기록들이 쌓여 인류문화를 기록한다는 의미는 요즘 우리가 많이 사용하는 SNS를 생각하면 그럴싸하네요. 엔그램 뷰어는 빅데이터를 이용해 인간의 역사와 문화를 분석하는 의미로 컬처로믹스라는 이름을 붙이기도 했죠. 우리 문명이 어떻게 변화했는지 역사적 변화를 수량화한 게 바로 엔그램 뷰어입니다.


『 구글 북스는 단순히 빅데이터가 아니라 롱데이터다. 』 - p28

 

 

엔그램 데이터로 영문법의 변화에 관해 무엇을 밝혀냈고, 사전들이 어떤 실수를 했고, 사람들이 어떻게 유명해지며, 정부가 어떻게 사상을 억압하고, 사회가 어떻게 배우고 망각하는지에 대해 다루고 있는데 하나하나의 사례가 참 흥미로웠습니다.

사용빈도에 따라 사라진 것과 살아남은 불규칙 동사를 설명할 땐 우리가 학창시절 고역스러웠던 그 불규칙동사가, 새롭게 탄생한 예외규칙이 아니라 애초에 불규칙동사가 가득했고 -ed 규칙이 뒤늦게 나타났다는 것을 알게 되었네요. 사람들이 자주 사용하는 불규칙동사는 아직 살아남아 있기 때문에 우리로선 외워야 할 불규칙동사가 여전히 있는 셈입니다. 현재 추세라면 2500년경에는 불규칙동사 177개 중 83개만이 남게 될 거라 예측합니다.


 



 

독일 나치의 분서 사건에서 헬렌 겔러는 사상을 죽일 수 없다고 말했는데 그 말이 정말일지도 실험했습니다. 검열, 억압, 악행의 세계와 관련된 인간의 어두운 면을 살펴본 거죠. 나치 정권의 독일 문화 조작 사례는 독일인의 사고의 모든 측면을 조종하기도 했는데, 결과는 사상을 죽이지는 못해도 지워버릴 수는 있더라는 겁니다.

또 흥미로웠던 실험은 유명인에 관한 이야기인데요, 교과서에서 누구는 중요하고 누구는 덜 중요하다는 것을 규정하는 것 역시 한 집단의 선택과 결정에 따르므로 우리는 그들에게 역사를 보는 관점을 형성하는 힘을 주는 거라고 합니다. 하지만 엔그램 데이터에서 본 유명인 목록과 비교하면 상당히 거리가 있더라고요. 더불어 데이터를 이용해 언제 사람들이 유명해지고, 얼마나 빨리 유명해지고, 얼마나 빨리 잊히고, 어떤 직업적 선택이 그들을 명성으로 이끄는지도 알아냈습니다.


이렇게 통계 내는 과정에서 생기는 다양한 오류와 문제 해결 과정 역시 비중 있게 다루고 있습니다. 하나의 도구가 창조되면 모든 곳에 효과적으로 쓰이긴 힘들지요. 엔그램 데이터를 활용하기 적합한 분야에 적절하게 쓰이기만 하면 인문학을 위한 빅데이터 가치는 더 높아질 겁니다.


 


기술의 난제에서 벗어나 도덕적 딜레마 문제인 디지털 기록의 양면성도 다룹니다. 소셜 미디어에 자발적으로 남기는 정보들은 인간의 생각을 파악하기 위한 데이터가 됩니다. 사적인 역사를 소유할 권리, 그것에 접근하는 사람을 제어하는 방법 등의 문제 해결이 함께 다뤄져야 하겠지요.



 



부록으로는 어마어마한 빅데이터로 보는 다양한 앤그램 그래프가 소개되어 있고, 한국의 인문학 연구에서 빅데이터 활용에 관한 특별좌담을 추가했네요. 아직은 구글 엔그램 뷰어에서 한국어는 검색이 안 되는지라 많이 아쉽긴 합니다.

로봇이 만드는 역사, 디지털 렌즈로 들여다봤을 때 보이는 인류의 과거에 관한 책 <빅데이터 인문학>. 우리가 세상을 지금의 모습 그대로 이해하려면 오늘날의 상태를 불러온 변화의 과정을 이해하는 것이 우선이니 엔그램 데이터를 활용한 디지털 미래의 역사를 미리 들여다본 느낌이었어요.


댓글(0) 먼댓글(0) 좋아요(8)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo