-
-
다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :
통계를 바라보는 방법과 통계에 대해서 더 잘아는 방법에 대한 책이 나왔습니다.
통계의 오류나 의도한 통계에 대한 책들이 많은데 이 책은 그것뿐만 아니라 기본인 데이터에 대해서
다루고 있습니다. 기초자료인 데이터 자체에 심각한 오류가 있을 수 있다는 것이죠...
데이터라는 것이 기본적으로 세상의 모든 것을 나타낼 수 없기에 선별을 해야하는데 그 과정에서
데이터가 빠질 수 있고, 예전에는 맞았던 것이 지금에는 틀리는 것이 있는 것처럼 시간이 지나면서
정의가 변해서 데이터에 오류가 생길 수도 있구요. 조사를 받는 사람들의 속임수 등으로 인해서 데이터가
달라질 수도 있구요....책에서는 대표적으로 15가지 유형으로 나누어서 다크 데이터가 생기는 사유에 대해서
설명해 놓았습니다.
그리고 책을 읽으면 왜 이걸 다크데이터라고 밖에 번역할 수 없었을까 했는데 그 이유가 누군가 뺀것도
아니고 구조상, 여건상, 실수로.. 다양한 이유로 데이터가 미비할 수 있어서 그 모든 사안들을 반영할 때
그것에 대해서 다크데이터로 지칭하는게 맞을꺼 같더라구요.
그럼 무언가 빠진게 있을 때 그걸 보게 되는 나는 어떻게 해야할까?
몇 가지 방법이 나왔지만 전체적으로 조망하고 따져보라는 건데 사실 일반적인 독자 입장에서는
이게 뭔소용일까 싶습니다. 통계를 대할때 경계하고 조심해라... 이정도를 기억하면 될꺼 같습니다.
그리고 그 항목이나 자료를 바라볼 떄 그 맥락을 한번 더 따져볼 수 있다면 베스트일꺼 같습니다.
마지막으로 다크데이터의 유용한 점 중에 제일 유용한 게
개인을 특정할 수 없게 된다는 겁니다.. 데이터라는게 아무리 감춰도 다른 데이터와 연관된다면
개인을 식별할 수 있는데 다크데이터가 많다면 개인이 식별되지 않는거죠...
그런데 그러면 통계로서의 가치가 없게 된다고 하네요.
마무리로 이 책은 경계하라....라는게 제일 중요하고... 그 방법에 대해서 잘 알려줍니다.
*** 서평이벤트로 제공받은 책을 읽고 느낌대로 적은 글입니다. ***
