다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :
장바구니담기


오늘 만나 볼 책은 세계적인 통계학자 데이비드 핸드의 "다크 데이터"입니다. 

저자는 우리가 '갖고 있지 않은' 데이터, 즉 우리가 지금 갖고 싶거나, 이전에 가지고 싶었거나, 또는 가진 줄 알지만 실제로는 갖고 있지 '않은' 데이터에 관한 책이라고 이 책을 소개합니다. 


저자는 온갖 유형의 누락된 데이터를 통칭해 '다크 데이터(dark data)'라 부르며, 다크 데이터는 우리가 볼 수 없게 숨겨져 있어 그 때문에 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다고 합니다. 물리학의 '암흑물질(dark matter)'에 비유 되고 그 작동 방식도 비슷한 다크 데이터는, 우리한테 보이지 않으며 기록되지도 않지만 우리의 결론, 결정, 행위에 막대한 영향을 끼칠 수 있고 미지의 것이 숨어 있을 가능성을 우리가 알아차리지 못한다면 그 결과는 참담하거나 심지어 치명적일 수도 있다고 합니다.


따라서 이 책을 통해 다크 데이터가 어떻게 그리고 왜 생기는지 파헤치고, 또 다크 데이터의 여러 종류를 살펴서 그 각각이 발생한 이유도 알아보며, 애초에 다크 데이터가 생기지 않도록 하려면 어떤 조치를 해야 하는지를 알아봅니다. 또 다크 데이터가 숨겨져 있음을 알아차렸을 때 어떻게 해야 하는지, 마지막으로 우리가 충분히 영리하다면 때론 다크 데이터를 활용할 수 있다는 점도 살펴봅니다.


저자의 기준으로 분류되는 다크 데이터의 유형은 총 15가지입니다.

DD 유형 1 : 빠져 있는지 우리가 아는 데이터

DD 유형 2 : 빠져 있는지 우리가 모르는 데이터

DD 유형 3 : 일부 사례만 선택하기

DD 유형 4 : 자기 선택

DD 유형 5 : 중요한 것이 빠짐

DD 유형 6 : 존재했을 수도 있는 데이터

DD 유형 7 : 시간에 따라 변하는 데이터

DD 유형 8 : 데이터의 정의

DD 유형 9 : 데이터의 요약

DD 유형 10 : 측정 오차 및 불확실성

DD 유형 11 : 피드백과 게이밍

DD 유형 12 : 정보 비대칭

DD 유형 13 : 의도적인 다크 데이터

DD 유형 14 : 조작된 합성 데이터

DD 유형 15 : 데이터 너머로 외삽하기

책에는 각 유형별 사례들이 제시되는데, 다크 데이터의 발생 형태가 다양하고 발생 이유도 가지각색이기에, 제시된 분류 체계로 모든 경우를 다 담아내지 못할 수도 있고 또 두 가지 이상의 유형이 동시에 작용하기도 합니다.

 

예시를 하나 살펴 보겠습니다.

영국 '트라우마 검사 및 연구 네트워크'의 데이터베이스는 유럽 최대의 의료 트라우마 데이터베이스로, 여기에는 영국과 웨일스에 있는 병원들 93퍼센트 이상과 아일랜드/네덜란드/스위스의 병원들도 포함 된 그야말로 트라우마 진단 및 처치의 효율성을 연구하는데 필요한 데이터의 보고입니다. 그런데 165,559건의 트라우마 사례 중 알려지지 않은 사례가 19,289건으로 11퍼센트가 넘는 환자들의 30일 이후 생존 여부가 알려지지 않았습니다. 이는 다크 데이터의 흔한 형태 'DD 유형 1 : 빠져 있는지 우리가 아는 데이터'를 보여주는 것으로 이 환자들한테 어떤 결과가 나왔으리라는 건 알지만 그게 무엇인지는 모른다는 것입니다. 여기서 146,270명을 분석한 뒤에 그걸 바탕으로 진단을 내리면 되지 않느냐고 하면 문제가 안되는 것일까? 어쩌면 결과를 모르는 19,289건은 다른 사례의 결과와 매우 다를지도 모르기에 결과가 알려진 환자의 분석에 근거해 조치를 취했다가는 오진, 틀린 처방, 부적절한 치료법으로 인해 환자들에게 불행하거나 심지어 치명적인 결과가 생길지도 모릅니다.이 이야기는 '매사가 겉보기와 다를 수도 있다'는 것으로, 다시 말해 '빅 데이터'가 있으면 좋긴 하지만 크기가 모든 것을 말해주지는 않는다는 것입니다.


다른 예시를 보겠습니다.

고객이 채운 쇼핑 카트의 물품을 계산대에서 레이저가 각 물품의 바코드를 스캔하여 결제 과정을 거치면, 구매 내역과 각 물품의 가격이 기록된 데이터가 데이터베이스로 보내져 저장되고 통계학자와 데이터 과학자가 그 데이터를 살펴 고객의 소비 행동 패턴을 뽑아냅니다. 이 수집 된 데이터가 전부라는 것은 누가 봐도 명백하지만, 이 데이터는 지난주 또는 지난달에 무슨 일이 있었는지를 알려주는 점에서는 유용하긴 하나 그 쇼핑 센터를 운용하는 사람이 정말 알고 싶은 것은 아마도 내일이나 다음 주 또는 다음 달에 무슨 일이 생기느냐 일 것입니다. 누가 무엇을 언제 얼마나 사느냐, 진열대에 더 채워 놓아야 할 물품은 무엇이며 사람들은 어떤 브랜드를 선호할까? 등 우리는 아직 측정 되지 않은 데이터를 원합니다. 'DD 유형 7 : 시간에 따라 변하는 데이터'는 데이터에 관한 시간의 모호한 속성을 설명해 줍니다. 또 '데이터=모든 것'이라는 개념은 개념 자체가 확실히 비합리적입니다. 몸무게를 예로 들어보면, 체중을 재고 다시 측정해 보면 아주 조금밖에 시간이 안 지났더라도 살짝 다른 결과가 나올지도 모릅니다. 모든 물리적 측정은 측정 오차나 매우 근소한 상황 변화로 인한 무작위적인 변동 때문에 부정확하게 마련인데, 이는 'DD 유형 10 : 측정 오차 및 불확실성'에 해당합니다.

한 술 더 떠서 우리는 기존의 것과 다른 새로운 물품을 내놓았더라면, 그런 물품을 진열대에 새로운 방식으로 배치했더라면, 또는 쇼핑 센터의 개점 시간을 바꾸었더라면 사람들이 어떻게 행동했을지를 알고 싶을지도 모릅니다. 이것들은 실제 일어난 일과 다르다는 의미에서 '반사실(counterfactual)'이라고 하는데, 실제로 생긴 일이 생기지 않았더라면 무슨 일이 생겼을지를 문제 삼기 때문입니다. 반사실은 'DD 유형 6 : 존재했을 수도 있는 데이터'입니다.


 

다크 데이터를 다루는 방법의 핵심은 '경계', 곧 무엇이 잘못될 수 있는지를 알아차리고 '방지'하는 것입니다. 그러나 전체 데이터 수집에 실패한 경우 관측 데이터를 빠진 데이터에 연결 한다던지, 누락된 데이터를는 3가지 유형으로 나누어 유형별로 그 해법을 적용 한다던지, 이미 가진 데이터를 활용하는 등으로 '검출'을 해내는 것입니다. 방지와 검출 이후 다크 데이터에 대처하는 방법은 바로 '교정'으로 어떻게 오류를 교정할지 그리고 그 교정 자체가 가능한지 여부는 진짜 값에 대한 지식과 오류의 종류에 대한 전반적인 통찰에 따라 달라지게 됩니다.


 

단점만 있는 듯 보이는 다크 데이터가 전하고자 하는 메시지는 바로 '경계'하라는 것입니다. 그러나 우리가 무엇을 하는지 알고서 신중하기만 하다면 다크 데이터를 이롭게 사용할 수 있습니다. 다크 데이터에 내포된 모호성을 거꾸로 이용하여 지식을 키우고 예측을 향상하고 더 효과적인 행동을 선택하고 심지어 돈을 절약할 수도 있다고 저자는 이야기 합니다.


책을 읽으며 믿어 의심치 않았던 데이터들이 사실은 숨겨지고 감춰지고 부정확하고 모호하다는 것을 위의 간단한 예시를 통해서 쉽게 파악할 수 있고, 그럼 무엇이 정확한 것인지에 대해 혼란스럽기도 합니다. 그렇기에 저자가 지적하는 다크 데이터에 대해 유형별로 제대로 알아야 하고 제대로 대처해야 하는 것이 아닐까 싶습니다.


본문의 사례에 따라서는 통계학에 대한 지식이 없는 경우 쉽게 읽히지 않는 경우도 있지만, 무엇을 전달하고자 하는지에 대한 이해는 충분히 할 수 있었습니다.


빅데이터의 시대라고 하지만 그것이 완전한 것이 아님을 '다크 데이터'를 통해 배울 수 있었고, 

데이터의 홍수 속에서 틀리지 않는 판단을 할 수 있는 기초 체력을 키울 수 있는 책입니다.



         "이 서평은 출판사로부터 제공받은 도서를 읽고 작성한 후기입니다."




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo