빅데이터 인문학 : 진격의 서막 - 800만 권의 책에서 배울 수 있는 것들
에레즈 에이든 외 지음, 김재중 옮김 / 사계절 / 2015년 1월
평점 :
장바구니담기


에레즈 에이든과 장비티스트 미셸은 매우 이상한 실험을 했다. 수많은 디지털 쓰레기들을 재료로 삼은 이 실험에서 그들은 새로운 데이터를 추출했다. 많은 사람들이 하루에 최소한 한 번 인터넷을 사용하고, 그 안에서 글을 쓰거나 댓글을 달거나 좋아요를 누르고 멘션을 다는 등의 활동을 하고 있다. 이 모든 것이 데이터 부스러기다. 매일 우리는 디지털 똥을 싸고 있고, 이 똥들을 모아 일을 꾸미는 이들이 있다. 빅데이터는 의미 있는 디지털 똥이다. 


디지털 발명 이전에도 데이터는 있었다. 각종 문서와 책 등 종이로 흔적이 남았고, 이 흔적을 구글이 스캔했다. 구글이 스캔한 문서는 규모가 어마어마하다. 에이든과 미셸은 구글이 애써 모아놓은 공개된 자료를 가지고 놀았다. 가령 이런 것이다. 


“1950년에서 2000년 사이에 영어는 성장의 시기로 진입해, 새로운 단어 수십만 개가 추가됐으며 규모가 거의 두 배로 커졌다. 출생이 어휘 최후의 병자성사 횟수를 급격히 넘어섰다. 현재 매년 약 8400개의 단어가 영어로 진입하고 있다. 매일 20개 이상의 새로운 단어들이 문지방을 넘고 있는 셈이다.” 


1950년대에서 2000년 사이의 구글 데이터를 바탕으로 영어의 성장 과정을 추출한다. 특정 시기 동안에 구글이 축적한 데이터에서 ‘남녀 평등’을 입력하여 남녀 평등이 책에서 언급된 회수를 체크할 수도 있다. 시기에 따라 언급된 수가 다를 것이고, 아마도 그래프에서 오늘에 가까울수록 더 많이 언급될 것이다. 이는 남녀 평등을 논의해왔다는 증거가 될 수 있다. 


이러한 새로운 데이터들을 모으면 특정 주제의 그래프를 통해 시대를 해석할 수 있다. 시민 운동, 페스트, 평등, 정의, 자유 등 어떤 분야, 어떤 주제도 가능하다. 


이 외에 이들은 다음과 같은 ‘발견’도 했다. 


“방사성 물질이나 불규칙동사처럼 유명한 사람들의 명성에도 그것이 절반으로 쇠퇴하는 데 걸리는 특유의 기간인 반감기가 있다. 이 매개변수를 나타내는 시간의 척도 역시 점점 짧아지고 있다. 1800년에 반감기는 120년이었다. 1900년에는 71년으로 떨어졌다.” 


이를 통해 다음과 같은 결론을 얻었다. 


“사람들은 더 유명해지는 만큼 더 빨리 잊힌다.”


“미래에는 모든 사람이 단 7.5분 동안만 세계적으로 유명할 것이다.”



댓글(0) 먼댓글(0) 좋아요(9)
좋아요
북마크하기찜하기 thankstoThanksTo