다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :
장바구니담기


빅데이터, 데이터분석, 통계, 머신러닝, AI 등의 용어는 이제 일상에서 흔하게 접하고, 알게 모르게 우리 주변에 깊숙히 영향을 미치고 있는 것같다. 우연히 데이터 관련 카페에서 다크 데이터라는 들어보지 못한 새로운 종류의 데이터를 다루는 책의 출간과 함께 서평 이벤트가 있어 당첨의 기회를 얻게 되었다.

우선 저자인 데이비드 핸드는 옥스퍼드대학교를 졸업하고 세계적인 이공계 명문 대학인 임페리얼컬리지런던의 수학과 명예교수겸 선임연구원으로 2013년에 대영제국 훈장도 받은 세계적 통계학자라고 한다. "신은 주사위 놀이를 하지 않는다"라는 유명한 통계학 책의 저자라고 하는데, 책을 읽어 보지는 않았지만 제목은 다들 한 번쯤 들어봤을 것같다.

"다크 데이터"가 뭔지 궁금했는데 저자는 온갖 유형의 누락된 데이터를 통칭하는 개념으로 얘기하고, 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다고 한다. 한마디로 무지 때문에 판단을 그르칠 수 있다는 뜻이다. "다크 데이터"라는 용어는 우주의 약 27%를 차지하는 불가사의한 물질이나 오랫동안 존재가 알려지지 않았던 물리학의 "암흑물질(dark matter)"에 비유할만하다고 한다.

저자는 다크 데이터를 발생 이유에 따른 분류체계에 따라 첫번째 유형(DD 유형 1: 빠져 있는지 우리가 아는 데이터), 두번째 유형(DD 유형 2: 빠져 있는지 우리가 모르는 데이터) 등과 같이 15가지 유형으로 분류해서 소개하고 있다.

첫번째 유형의 사례로 영국의 "트라우마 검사 및 연구 네트워크"의 165,595건의 방대한 트라우마 데이터에서 결과가 알려지지 않은 19,289건에 주목한 부분인데, 트라우마 연구에서 "결과"란 환자가 부상후 적어도 30일이 지난 시점에 생존해 있는지를 의미한다고 한다. 즉 11%가 넘는 환자들의 30일 이후 생존 여부가 알려지지 않았다는 것이다. 이런 경우 자연스럽게 결과가 알려진 146,270명을 분석한 결과에 따라 진단을 내릴 것이다. 하지만 결과가 누락되었다는 것을 알고 있는 데이터가 누락된 상태에서의 결론이 완전히 옳다고 확신할 수는 없을 것이다. 극단적인 예를 들어 결과가 알려진 146,270명은 치료 없이도 회복되어 생존했지만 결과가 알려지지 않은 19,289명은 모두 입원 이틀 내에 사망했다고 하면, 결과가 알려지지 않은 사례들이 무시되고 트라우마 환자들은 저절로 회복되리라 예상하며 아무 치료도 하지 않는 사태가 발생할 수 있다는 것이다.

저자는 책의 목적이 다크 데이터의 유형들을 제시하고, 어떻게 유형을 확인할 수 있는지 알려주고, 그 영향력을 관찰하며, 각각의 유형들이 일으키는 문제들을 해결하고 나아가 활용하는 방법까지 알려주는 것이라고 한다. 세계적인 석학의 통찰로 정리한, 일반인들은 존재에 대해 다크할 수 있는(모르고 지나치는) "다크 데이터"에 대한 인사이트를 주는 책이어서 읽어보면 많이 도움이 될 것같다.

"서평 이벤트를 통해 책을 제공받아 작성된 글입니다."


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo