-
-
다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :
“다크 데이터 (데이비드 핸드 著, 노태복 譯, 북퀘스트, 원제 : Dark Data: Why What You Don’t Know Matters)”를 읽었습니다.

우주의 물질이 대부분은 우리가 알고 있는 일반 물질이 아니라 어떤 상호작용도 하지 않는 암흑물질입니다. 현재까지 알려진 바로는 전체 우주를 구성하고 있는 물질 중 80%가 넘는다고 합니다. 이 책, “다크 데이터”에 따르면 우리가 활용하고 있는 데이터도 우리가 인지하지 못하는 ‘다크 데이터’가 대부분입니다.
우리는 흔히 데이터 수집 과정을 정교하게 통제함으로써 데이터를 다 갖고 있다고 생각하는 경향이 있습니다. 책에서는 고객의 쇼핑 행위에 따른 거래 데이터를 수집하는 과정을 설명하면서 이 케이스를 설명하고 있습니다. 데이터를 이용하는 의사결정자는 고객이 어떤 물건을 샀는지에 대해 알고 싶어하지만 정말 알고 싶어하는 것은 무엇을 언제 사고 얼마나 사느냐에 대한 정보일 것입니다. 하지만 이러한 정보는 아직 측정되지 않은 정보일 뿐입니다. 미래라는 시간은 데이터에 대한 모호성을 키워줍니다.
그 뿐 아닙니다. 매대에 A상품 대신 B상품을 진열했다면?
네, 기존에 측정한 데이터는 A상품에 대한 데이터일 뿐입니다. B상품에 대한 데이터는 진열하지도 판매하지도 않았기에 데이터로 측정되지 않습니다. 그러므로 이 데이터는 존재하지 않습니다.
이렇듯 간단해 보이고 자명해 보이는 데이터 수집 과정에서도 의사결정에 필요한 데이터 중 많은 데이터가 존재하지 않는 ‘다크 데이터’가 됩니다. 즉 우리가 알고 있는 데이터는 모든 데이터일 수 없다는 것이 저자의 핵심 주장입니다.
이 책에서는 다크 데이터의 많은 유형을 사례별로 나누어 보여주고 있는데 크게 15가지 유형으로 구분할 수 있습니다. 과거 많은 산업이 석유 등 화석연료를 동력으로 삼아왔듯 미래의 산업은 데이터를 동력으로 삼아 발전한다고들 말합니다. 하지만 많은 데이터는 오염될 수 밖에 없으므로 이를 정화하는 과정, 즉 다크 데이터를 확인하고 이를 고치는 정화 과정이 중요하다고도 저자는 역설하며 사례를 통해 설명하고 있습니다.
빅데이터 시대라 불리우는 지금, 우리는 살아가는데, 그리고 결정을 내리는데 필요한 모든 정보를 가지고 있다고 착각하기 쉽습니다. 하지만 우리는 정보나 데이터가 완전하지 않으며 데이터가 숨겨져 있다는 생각을 미처 하지 못합니다. 누락된 데이터, 혹은 우리가 알지 못하는 데이터가 우리의 의사결정을 실패로 이끌 수 있다는 사실 역시 알지 못합니다. 이 책을 통해 다크 데이터의 위험성과 함께 이러한 다크 데이터가 나타날 수 있는 유형에 대해 알 수 있는 기회가 된 독서경험을 가질 수 있었습니다.
#다크데이터, #데이비드핸드, #노태복, #더퀘스트