-
-
다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :
이 글은 출판사로부터 책을 지원받아 작성하였습니다.
출판사에게 책을 지원받았지만 늘 그렇듯, 제가 쓰고싶은대로 쓰려고 합니다.

그러니 데이비드 핸드 교수님의 이야기를 전부 이해한 건 아닙니다. 참고해주시길.
우선 개선했으면 좋겠다는 점부터 말씀드려보자면 43페이지에 이렇게 적혀있다.
한 모집단의 알려지지 않은 특성은 그것이 무엇이든 다크 데이터라고 볼 수 있다(통계학자들은 그런 특성을 매개변수parameter라고 부른다).
통계학에서는 parameter를 보통 매개변수라고 하지 않고 모수라고 이해한다.
영국 통계학회 회장까지 지낸 교수님의 책이고, 책 내용과 번역이 나쁜 편은 아니다. 하지만 이런 부분은 통계학을 전공한 선생님들의 감수를 받으면 더 완성도 있는 책이 나올 수 있다는 점에서 아쉽다.
다음에 개정판을 내거나 혹은 개역판을 내면 통계학 전공하신 선생님께 감수한번 받아주었으면 좋겠다. 번역이 잘 되어있는 편이니 감수하시기도 좋을거라고 생각한다.
그리고 책 본문 내용은 흥미롭다. 보통 데이터 관련 내용을 얘기하면 바로 생각이 드는건 분석 혹은 마케팅과 같은 기법에 대한 내용들이다. 하지만 이 책은 그 이전을 바라본다. 역시 짬에서 나오는 바이브가 후덜덜하다.
아직 쪼렙이지만, 회사를 조금씩 겪다보니 분석기법 때문에 말이 많은 경우가 그리 많지 않았던거 같다. 그보다는 데이터를 어떻게 추출할건지, 어떤 기준을 세울건지, 뽑은게 정확한지와 같은 부분이 핵심 이슈가 되었던거 같다.
이제 이쪽 업계분들은 다들 하는 소리지만, 알고리즘은 많이 공개가 된 편이다. (당연히 회사에서 쓰는 코드는 공개가 안된다. 그럼에도 불구하고 많이 오픈소스화되었다는 소리다) 중요한 건 데이터다. 결국 알고리즘은 데이터의 분포를 가지고 모델을 만드는 것일텐데 데이터가 엉망이면, 알고리즘이 아무리 최신 논문 기반으로 구현된 알고리즘이라 하더라도 믿을 수가 없다.
그래서 교수님은 이런말을 하신다.
많은 데이터, 그러니까 '빅데이터'가 있으면 좋긴 하지만 크기가 모든 것을 말해주지는 않는다. 그리고 우리가 모르는 것, 가지고 있지 않은 데이터가 가지고 있는 데이터보다 상황을 이해하는 데 훨씬 더 중요할 수도 있다. 앞으로 보겠지만 다크 데이터의 문제는 단지 빅데이터에서만이 아니라 작은 데이터 세트에서도 생긴다. 그야말로 어디에서나 생기는 문제다.
다크데이터 p.22
쿼리를 돌리고 파이썬을 돌리고 태스크를 마무리했다고 뿌듯해하며 좋아했는데 알고보니 전혀 효과가 없을수도 있다는 얘기.
사실 위에 얘기는 들어봤을만한 얘기지만 아래의 얘기는 그렇게 많이 들어보지 못했을 수도 있다.
일반적으로 시간이 지나면서 정의가 달라지면 수집되는 데이터의 속성도 달라진다. 이는 지난 데이터와의 비교를 어렵게 만들 뿐만 아니라 부정직하다는 비난을 초래할 수도 있다. 이를 명백히 보여주는 예가 실업의 정의다. 정의를 바꾸면 정부의 실적은 훨씬 더 좋아보일 수 있다.
다크데이터 p.104~105
데이터가 한번 수집되면 그게 계속 정확할거라고 보통 가정을 하고 업무를 진행한다. 만약 이런 가정이 작동하지 않는다면 업무를 할 수 없을테니까. 그렇지만 시간이 될 때 한번쯤은 점검해봐야하지 않을까. 계속해서 들어오고 있는 데이터가 혹시 변동될 가능성은 없을까? 기획팀에서 기준을 바꾸자고 하는데 그러면 위험할 수 있지 않을까?
결국 여러 사례를 얘기하시지만, 기준문제다. 기준을 어디로 세우느냐에 따라 보이는 부분과 안보이는 부분이 나뉠 수 있으니까.
그리고 이 책에서 흥미로웠던 부분은 그 유명한 미국 대선 예측 실패 사례에 대한 새로운 이야기였다.
통계학 수업을 듣다보면 거의 무조건 듣게되는 미국 대선 예측 실패 사례. selection bias에 대한 얘기인데 이 책에선 전혀 다른 이야기를 들려준다.
랜던/루스벨트 선거 여론조사의 경우, 전화기가 원인이라는 설명은 널리 알려져 옳다고 알고들 있지만 사실은 틀렸다.
그렇다면 여론조사가 실패한 진짜 원인은 무엇일까?
답은 여전히 다크 데이터에 있지만, 훨씬 더 낯익고 단순한 형태의 다크 데이터다. 그리고 웹 기반 여론조사가 등장하면서 매우 중요해진 문제이기도 하다. 여론조사 요원들이 천만 건의 여론조사 설문지를 우편으로 보냈지만, 수령자의 약 4분의 1인 약 230만 명만이 답변을 했다. 설문지를 받고도 무시해버린 4분의 3 이상의 의견은 다크 데이터가 되고 말았다. 그 의미는 명백하다. 만약 공화당을 지지하는 유권자들이 (예로부터 그랬던 것처럼) 친루스벨트 유권자들보다 선거에 더 관심이 많았다면, 그들은 여론조사에 더 잘 응답했을 것이다. 따라서 여론조사에서는 다수가 랜던을 지지하는 분위기였을텐데, <리터러리 다이제스트>가 파악한 것이 바로 이 왜곡된 견해였다. 이러한 자기 선택 왜곡은 실제 선거가 치러지면서 사라졌다.
다크데이터 p.71
응답률이 중요하다는 이야기는 이 책에서 처음들어봤다. 보통 설문조사를 보면 95%신뢰도, 99%신뢰도를 보지, 응답률이 얼마였는지는 표시도 별로 안해줬던거 같고(했는데 안봤을지도 모르겠지만), 크게 강조되지 않는 부분이었다.
그런데 응답률에 따라 생각지도 못한 미스가 발생할 수 있다니. 신선했다.
그 이외에도 끊임없이 사례를 들려주시는데 주제는 다크데이터 하나지만, 변주곡을 듣는거 같아 흥미롭고 재미있었다. 깊이 있는 내용이면서도 대중들이 알아들을 수 있는 높이까지 맞추시는 교수님의 솜씨가 돋보였다.
고로 이 책은 추천.
밑줄
p.30~31
과학적으로 중요한 교훈이 하나 있다. 어떤 이론이 데이터에 대해서는 완벽하게 타당할지 몰라도, 데이터는 한계를 지니게 마련이다. 매우 높은 온도나 오랜 시간, 광대한 거리는 담아내지 못할 수 있다. 또한 그 데이터가 수집되었던 한계 너머로까지 적용하려 한다면, 곧 외삽(extrapolation)하려 한다면 이론은 깨지고 만다. 일반적인 경기 조건에서 수집된 데이터로 구축한 경제이론은 심각한 불경기에 들어맞지 않을 수 있으며, 뉴턴의 법칙도 물체가 지극히 작거나 속도가 대단히 빠르거나 다른 극단적인 상황에서는 제대로 작동하지 못한다.
p.58
2017년 12월 29일자 <더타임스>의 다음 기사를 보자. "경찰에 따르면 택시 기사가 승객에게 가한 성폭력 사건 발생 횟수는 3년 동안 20퍼센트 증가했다" 곧바로 그런 범죄가 실제로 더 많이 벌어지고 있으니 이런 수치가 나온다는 생각이 떠오를 것이다. 하지만 다크 데이터에서 비롯하는 다른 이유도 있다. 바로 택시 기사 성폭력 범죄 발생 비율은 그대로인데 범죄 신고 비율이 증가하기 때문인 경우다. 사회적 풍습과 규범의 변화에 따라 이제껏 숨어 있던 다크 데이터가 드러나는 것일지도 모른다. 여기에서 일반적인 교훈을 하나 얻을 수 있다. 만약 어느 시기 동안 수치의 급격한 변화가 일어났다면, 바탕이 되는 현실이 바뀌었을 수도 있지만 데이터 수집 절차가 바뀌었기 때문일 수도 있다.
p.105
공식을 달리하면 그에 따른 효과는 물론이고 인플레이션 지수에 근본적으로 다크 데이터가 생긴다. 계산을 하려면 바스켓에 무슨 품목을 넣을지, 그리고 가격 정보를 어떻게 얻을지 결정해야 한다. 앞서 얘기한 사례들에서 일반적으로 드러났듯이, 우리는 데이터 수집 과정에서 선택을 할 때마다 다크 데이터가 생겨날 위험성을 반드시 알아차려야 한다.