-
-
다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :



#서평
1.
저자는 임페리얼칼리지런던의 수학과 명예교수 겸 선임연구원으로 #신은주사위놀이를하지않는다 로 일어날 가능성이 거의 없는 사건들을 다루었고, 이번 책에서는 우리가 모른다는 것을 아는 것과 우리가 모른다는 것 조차 모르는 것들을 대상으로 현재 빅데이터에 대한 맹점을 이야기한다.
2.
다크 데이터는 누락된 데이터이다. 다크 데이터란 용어는 물리학의 암흑물질에 비유할 수 있는데, 우주의 약 27퍼센트를 차지하는 물질은 빛, 다른 전자기파와 상호작용하지 않는 것을 착안해 만든 용어이다. 저자는 미지의 것이 숨어 있을 가능성을 우리가 알아차리지 못한다면 그 결과는 참담하거나 심지어 치명적일 수도(18) 있다고 한다. 실제로 통계를 새빨간 거짓말이라고 표현한 유명한 정치인도 있다.
3.
데이터를 유용하게 사용하려면, 애당초 알맞은 데이터를 수집하고, 왜곡이나 오류가 없어야 한다는 것은 통계를 다루는 사람은 잘 알고 있는 내용이다. 흔히 양적 논문을 사용하는 사람(나 역시)은 인과관계에 대한 고민을 할 수 밖에 없다. 인과적 관련성인지 제3의 변수인지에 대한 고민이 들 때쯤 한 가지 지적이 떠오른다.
"하나의 결과 속에 수많은 원인이 있을텐데, 몇 가지 변수를 가지고 결론을 내는 것이 적절한가"에 대한 부분으로 한참을 고민하다 질적 연구로 학회지에만 두 편을 기재했다. 복잡계적 접근이 필요하다는 것을 여전히 느끼지만, 여러 가지 상황과 역량의 부족으로 대안은 없는 듯 하다.
4.
통계를 공부할 때 재밌는 사례가 있다. 전수 조사가 가장 적절하지만, 중국은 불가한데 파악하는 사이에 인구가 생사의 변동이 워낙 크기 때문이라는 이야기를 듣고 보니 우리 나라에서도 인구총조사를 적극적으로 해야겠단 생각이 들었다.
다크 데이터는 우리가 알지 못한 채 숨어있거나 삭제되고, 다른 데이터와 혼동을 일으킬 수도 있다. 그렇다면 아무런 수습도 하지 못하는 것은 아니다. 그 질문에 대한 답변을 2부 다크 데이터에 빛을 비추고 이용하는 법에서 답한다.
다크 데이터는 기계도 속일 수 있기에 실수와 사고가 더 많아지는 상황을 줄여야 할 것이다. 또한, 데이터를 맹목적으로 이해하지 말아야 할 것이다. 데이터가 악용되는 상황이 펼쳐지지 않기를 소망한다.
★ 책에서 이야기하는 다크 데이터의 유형
DD 유형 1: 빠져 있는지 우리가 아는 데이터
DD 유형 2: 빠져 있는지 우리가 모르는 데이터
DD 유형 3: 일부 사례만 선택하기
DD 유형 4: 자기 선택
DD 유형 5: 중요한 것이 빠짐
DD 유형 6: 존재했을 수도 있는 데이터
DD 유형 7: 시간에 따라 변하는 데이터,
DD 유형 8: 데이터의 정의
DD 유형 9: 데이터의 요약
DD 유형 10: 측정 오차 및 불확실성
DD 유형 11: 피드백과 게이밍
DD 유형 12: 정보 비대칭
DD 유형 13: 의도적인 다크 데이터
DD 유형 14: 조작된 합성 데이터
DD 유형 15: 데이터 너머로 외삽하기
★함께 읽으면 좋을 책
데이비드 핸드의 #신은주사위놀이를하지않는다
데이비드 스피겔할터의 숫자에 약한 사람들을 위한 통계학 수업
쿠리하라 신이치 외의 통계학 도감
한스 로슬링의 #팩트풀니스
★추천도(지극히 주관적인)
★★★★
p.s 네이버카페 컬처블룸의 추천으로 출판사로부터 서적을 제공받아 주관적으로 서평을 작성하였습니다.