-
-
다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :

“데이비드 핸드는 통계라는 세계의 어두운 한구석에 밝은 빛을 비춘다. 어렵게 느껴질 수 있겠지만 재치 있고 잘 읽히며, 중요한 책이다.” 「팀 하포드, 파이낸셜타임스 수석 칼럼니스트」 빅데이터는 말은 요즘 꽤 많이 듣는 말인데, 다크데이터는 생소한 용어이다. 보이지 않는 데이터가 세상을 지배한다고 말하며, 1986년 40년 전의 챌린저호 폭발 사고에서 파국적인 결과를 낳은 것에 다크데이터의 정체가 있다고 말한다. 흥미를 유발하는 책인가? 그렇지 않다면, 책 표제의 많은 말들이 논리와 근거는 어디에서 오는 것일까?
【데이비드 핸드】 (David John Hand, 1950년~ 71세) 영국 출신의 통계학자이다. 옥스퍼드 대학교를 졸업하고, 1988년~1999년까지 OU 대학교에서 통계학 교수로 재직했고, Imperial College London에 현재 수학 명예 교수로 재직 중이다. 2003년 영국 아카데미 회원으로 선출되었으며, 왕립통계학회의 회장직을 2008년~2010년간 역임했다. 영국기관, 유럽기관 등 통계에 관련된 위원회에 자문의 역할을 맡았으며, 전산 관련 통계에서는 세계적 권위자 임이 약력을 통해 알 수 있다.
【빅데이터】 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치뿐만 아니라 문자와 영상 더 나아가 몸짓과 행동 등 모든 것의 디지털 데이터를 말한다. 아주 간단하게 유튜브에 하루 동안 올라오는 영상을 다 보기 위해서는 평생을 영상만 보아도 다 볼 수 없다고 한다. 과거 컴퓨터로만 자료를 올리던 시대에도 모인 빅테이터는 1% 정도만 사용되고 99%는 방치되었다. 2007년 스마트폰의 보급과 2010년 SNS의 확산으로 페이스북, 트위터, 인스타그램, 유튜브, 틱톡, 메신저 프로그램들이 엄청나게 생산하고 있다. 실제 통계를 통해서 보아도 2004년 130EB(exabyte)를 생산하던 인터넷 기업이 10년만인 2015년 8ZB(zettabye)를 생산하게 이른다. 2021년 지금은 아예 측정조차 불가능할지도 모른다. 1엑스 바이트는 미국 의회도서관의 인쇄물의 10만배에 해당하는 정보량이다. 1 제타 바이트는 1000엑스 바이트이고, 8000엑스 바이트는 미국 의회도서관 인쇄물의 8억 배에 해당하는 것이다. 이런 빅데이터는 계속해서 수집되고 있지만, 분석하는 플랫폼의 한계와 각종 이유로 인해 99% 이상 방치되고 있다.

【다크데이터】 정보를 수집한 수, 저장만 하고 분석에 활용하고 있지 않은 다량의 데이터를 말한다. 저장된 정보는 미래에 사용할 가능성이 있다는 이유로 삭제되지 않고 방치되어 저장되어 개인과 기관의 보안 위험을 초래할 잠재적인 위험을 안고 있다. 단 1%의 데이터만으로 선거를 분석하고, 마케팅하고, 스포츠 경기를 분석하고, 기사를 쓰고, 세계의 경향을 분석한다. 미국의 16살 여학생이 월마트에 접속했을 때, 피임 도구와 육아용품을 가장 상단에 띄웠다는 기사는 우리의 일상 정보들이 어떻게 쓰이고 있는가에 관한 단편적인 사례일 뿐이다. 코로나 이후 비대면 서비스가 증가하면서, 고객에 대한 정보를 더욱 모으고 있다. 의료 통계, 금융 통계, 인구조사, 실험 설계, 투자 예측, 질병 진단, 개인정보 등 정부와 기업과 개인에 이르기까지 데이터를 모으는 데 혈안이 되어있다. 책은 다크데이터의 태동이 시기부터, 수십 년간 통계전문가로서 현실과 미래를 예측하는 내용으로 진행되고 있다. 단순하게 가정과 가설이 아닌, 실제 사례와 통계를 근거한 사실 위주로 말이다. 나는 이 다크데이터를 이렇게 표현하고 싶다. 4인이 포커를 치는데, 7장의 카드 중 4장은 빅데이터로 모두 공유되고 있고, 나머지 숨겨진 히든카드 3장은 판에 앉은 누군가에 의해 무단으로 들춰지고 있다고 말이다. 다크데이터는 절대 버려지는 쓸모없는 데이터가 아니다. 분석기술의 한계일 뿐 더욱 중요하고 조심스러운 정보가 넘쳐 흐르는 곳이다. 누군가는 그 속에서 가능성을 찾을 수 있을 것이고, 누군가는 그 속에서 자신의 안전을 지켜야 할 것이다. 20세기가 자본의 불균형이 가장 큰 문제였다면, 21세기는 디지털 불균형이 가장 큰 문제가 될 것이라고 많은 예상이 나오고 있다. 생산시설을 소유한 자본가보다, 데이터를 소유한 신인류가 새로운 지배계급으로 태동할 것이다.
