빅데이터 인문학 : 진격의 서막 - 800만 권의 책에서 배울 수 있는 것들
에레즈 에이든 외 지음, 김재중 옮김 / 사계절 / 2015년 1월
평점 :
장바구니담기


에레즈 에이든.장바티스트 미셸.

빅데이터 인문학: 진격의 서막

 

 

 

 

   빅데이터 인문학.

요즘 빅데이터가 이슈다. 작년 말까지 솔직히 나는 빅데이터에 대해서 잘 알지 못했다. 친한 친구 한 명이 빅데이터를 연구하는 회사에 취직했다는 말을 들은 후부터 빅데이터에 대해서 찾아보게 되었고, 무엇인지 알게 되었다. 네이버 지식백과를 찾아보니 빅데이터란 "디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터"라고 정의되어 있다.

 

 

   빅데이터 환경은 갈수록 점점 커지고 있다. 양도 많아지고 데이터의 종류도 다양해졌다. 우리가 살아가는 모든 움직임, 행동, 위치 등을 SNS를 포함한 모든 데이터를 통해서 분석하고 예측할 수 있는 시대가 도래한 것이다. 어떻게 보면 프라이버시가 침해될 수도 있지만, 잘 사용하면 인류에게 더 이로울 수도 있는 빅데이터. 빅데이터의 시작은 어디인가.

 

 

   스탠퍼드에 다니던 래리 페이지와 세르게이 브린. 이들은 1996년도에 '스탠퍼드 디지털도서관 테크놀로지 프로젝트'를 구상한다. 이들이 목표했던 것은 세상의 모든 책들을 한 데 검색해서 정보를 찾아볼 수 있고 누구나 쉽게 접근할 수 있게 만드는 것이었다. 이들의 노력은 세계적인 검색엔진이 된 '구글'과 '구글 엔그램 뷰어'라는 프로그램의 탄생을 가져왔다. 이들의 도전은 계속 되고 있다. 전 세계의 존재한 책이 약 1억 3,000만권이라고 추정하고, 모두 스캔하여 디지털 하겠다는 계획을 세우고 현재까지 진행하고 있다.

 

 

   저자는 빅데이터가 가져올 문제들에 대해서도 언급한다. 빅데이터는 과학자들이 접하는 전형적인 데이터와는 다른 특성을 지닌다는 것이다. 과학자들이 접하는 데이터들은 수학공식처럼 인과관계가 명확해서 딱딱 들어맞는다. 하지만 빅데이터는 다르다. 저자는 '지저분한 데이터'라는 단어를 사용해서 빅데이터를 묘사한다. 빅데이터는 전형적인 데이터와는 다르게 오류로 구멍이 숭숭 뚫려 있고, 많은 공백이 있다. 책에서는 페이스북의 예가 나와있다. 누군가는 친구 맺기를 자유분방하게 하지만, 누군가는 그렇지 않다. 직장 동료들과 페이스북 친구를 맺는 사람도 있지만 싫어하는 사람도 있다. 빅데이터는 과학적으로 들어 맞지가 않고 해석하기 힘들다. 어느 정도 짐작만 할 수 있을 뿐이다.

 

 

   가장 기억에 남는 부분은 특정 키워드를 정부가 억압하고 검열해오고 있다는 사실이었다. 구글 엔그램 뷰어에 특정 단어를 검색하면 특정 시기의 빈도가 낮게 나온다. 그 대표적인 예로 저자는 중국의 천안문 광장에서 있었던 일을 언급한다. 1989년에 중국사에 거대한 사건이 벌어진다. 천안문 광장의 학살 사건이다. 중국 정부는 강력한 탄압으로 군중을 진압했고 수천명의 사상자를 냈다. 이런 사태가 벌어졌는데 중국은 조용했다. 특별한 큰 움직임이 일어나지 않았다. 학살 이후 중국 관리들이 신속히 검열과 정보 억압 정책을 펼쳤기 때문이다.

 

 

   174쪽의 그래프를 보면 한 눈에 알 수 있다. 1989년을 기점으로 천안문 영어 표기인 Tiananmen의 빈도수가 확 올라가지만, 중국 표기인 天安門은 빈도수가 약간 올라갔다가 내려가는 모양을 보인다. 영어 표기의 빈도와 상당히 큰 차이가 있다. 검열과 억압의 결과는 어떠한가. 결과적으로 중국의 많은 젊은이들은 1989년 6월 4일에 있었던 천안문 학살에 대해 거의 아는 바가 없다는 것이다. 빅데이터를 통해서 역사의 흐름을 파악할 수 있다고 저자는 이 사례를 통해서 강조한다.

 

 

   팬옵티콘. 1791년 영국의 철학자 제러미 벤담이 죄수를 효과적으로 감시할 목적으로 고안한 원형 감옥을 말한다. 책을 읽으면서 계속 뇌리를 스치던 단어다. 21세기. 사람들은 스마트폰으로 불리우는 작은 컴퓨터를 항상 소지하고 다니며 SNS를 비롯해 지하철 승하차, 물건 구매 등 일상생활 모든 영역에서 매일매일 발자국을 남기고 있다. 책에서는 구글 엔그램 뷰어로 종이책을 검색할 수 있는 빅데이터에 국한하여 설명하지만, 앞으로는 더 다양한 분야에서의 빅데이터 활용이 많아 질 것이다. 악용되는 사례를 방지하기 위해 지금부터 정부차원의 대책을 마련해야한다는 생각이 들었다. 10년 후 우리 사회는 어떤 모습일까.

 


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo