뉴머러티 - 데이터로 세상을 지배하는 사람들
스티븐 베이커 지음, 이창희 옮김 / 세종(세종서적) / 2010년 6월
평점 :
구판절판


이책에서 사람은 숫자로 그려진다. 숫자로 사람을 생각하는 것은 그리 낯선 것이 아니다. PC가 생기기 이전에 등장한 바코드는 유통에 혁명을 일으켰다. 물건을 계산할 때마다 품목마다 재고량이 실시간으로 체크되면서 언제 어디에 어떤 물건을 가져다 놓아야 할지 쉽게 예측할 수 있게 되었다.

사람들이 어떤 물건을 얼마에 살지 알아내는 것은 비즈니스의 성배이다. 그것을 예측할 데이터를 누가 쥐는가는 권력을 쥔다는 말이 된다. 바코드의 등장과 함께 권력은 제조업체에서 유통업체로 이동했다.

그러나 거기까지 였다. 유통업자는 판매정보를 쥐게 되면서 어떤 품목을 어느 점포에 얼마나 준비해야 할지 예측할 수 있게 되었지만 왜 그것인지 누가 그것을 원하는지는 알 수 없엇다. 바코드로 읽어낼 수 있는 데이터는 총량(aggregate)이지 구매자를 단위로 개별화된 데이터가 아니기 때문이다.

구매자 단위의 정보를 가질 수 있다면 어떻게 될까? 판촉이 훨씬 쉬워진다. 지금까지 구매패턴을 추적할 수 있다면 그에 따라 어떤 물건을 살지 예측하기 쉬워진다.

그런 정보를 얻기 위해 매장에 회원카드를 발급하고 할인혜택을 주며 카트에 회원카드를 스캔하면 카트의 디스플레이에 매장의 어디서 할인행사를 하고 있다는 정보를 띄울 수 있고 어디에 가면 어떤 물건이 있다고 알려줄 수 있다.

사람의 행동을 숫자로 읽어 예측하려는 것은 유통업자만이 아니다. 이전까지 대규모 고객데이터는 유통업자와 신용카드 회사나 얻을 수 있었다. 그러나 인터넷의 확산으로 데이터는 모자라는 것이 아니라 너무 많아 문제가 되엇다.

컴퓨터에 앉아 클릭하고 타이핑하는 우리의 모든 행동이 우리의 행동을 예측할 수 있는 데이터가 된다.

구글이 좋은 예이다. 구글의 검색창에 오타를 내면 구글은 우리에게 원래 이런 단어를 입력하려 하지 않았습니까? 하고 묻는다. 그리고 우리가 구글이 찾아주기 원하는 검색결과는 우리같이 무엇을 찾아달라고 한 사람들이 웹서핑을 하면서 구글에게 알려준 선호도에 따라 구글이 우리에게 보여주는 검색결과는 더 좋아진다.

구글이 찾아준 웹 사이트에 들어가 보게 되는 광고도 마찬가지이다. 우리의 컴퓨터에 기록된 쿠키를 읽고 지금까지 우리의 선호도를 짐작해 그에 근접하는 광고를 띄워 광고효과를 올린다.

이책의 저자는 그외에도 선거운동에 유권자의 지지성향을 예측해 그에 맞게 DM을 발송하고 선거유세 계획을 조정하는 선거 마케팅에서 어떻게 데이터 마이닝이 적용되고 있는지; 블로그의 어휘들을 분석해 블로그 필자가 어떤 사람인지 추측하고 그에 따라 사람들 사이의 트렌드가 어떻게 변하는지 예측하는 마케팅에 데이터 마이닝이 어떻게 응용되는지; 테러리스트를 찾아내고 추적하는데 어떻게 응용되는지; 앞으로 의료나 연애에 어떻게 응용될지 등을 보여준다.

그러나 저자는 어디까지나 지금의 데이터 마이닝의 수준은 초창기일 뿐이며 한계가 분명하다고 말한다. 문제는 여러가지이다. 사람의 행동을 숫자로 모델링한다는 자체에 validity의 문제가 있다. 사람의 심리는 수학적 모델이 아니다. 그런데 그것을 수학적 모델로 번역한다면 많은 오차가 날 수 밖에 없다.

그런 본질적인 문제가 아니더라도 지금 수준에서 인간에 대한 이해가 깊지 않기 때문에도 많은 한계가 있다고 저자는 지적한다. 예측을 한다고 하지만 예측을 하려면 인과관계가 성립해야 한다. 그러나 지금 수준에서 알 수 있는 것은 인과관계가 아니라 기껏해야 상관관계 정도에 불과하다. 

더 실제적인 문제는 데이터 자체의 한계이다. 수학적으로 모델링하기 위해선 데이터가 필요하다. 그러므로 데이터 마이닝의 결과는 지금 우리가 이용할 수 있는 데이터 이상일 수 없다. GIGO(Garbage in Garbage Out)

저자는 그런 이유로 이책을 이렇게 끝낸다. "이 사람들 분석 제대로 한 거야? 이거 나 맞아?"

그러나 데이터 마이닝은 짧은 역사에도 불구하고 하루가 다르게 달라진다. 어제보다는 오늘이 오늘보다는 내일이 나은 분야인 것은 분명하다.

그러면 미래는 빅 브러더의 세계인가? 저자는 그럴 가능성이 있다고 본다. 보험회사는 우리의 데이터를 근거로 아예 처음부터 의료보험가입을 거부할 수 있을 것이고 정부도 우리의 데이터를 쥐고 범죄자 취급을 할 수도 있을 것이다.

그러나 저자는 데이터 자체는 중립적이라고 말한다. 데이터가 누구의 것이냐를 가리는 조치가 제도화될 것이므로 큰 문제는 없다고 저자는 생각한다.

오히려 그 데이터들이 어떻게 사용되는지에 관한 약간의 지식만 있다면 데이터의 주인으로서 우리 자신에게 얼마든지 유리하도록 바꿀 힘이 있다고 저자는 말한다.

댓글(2) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
faai 2010-08-13 11:09   좋아요 0 | 댓글달기 | URL
흥미가 동하는 책이네요. 결론도 인상적이고요^^

Lulu 2010-08-13 15:25   좋아요 0 | URL
읽을 만합니다 ^^ 그러나 결론은 좀 얼버무리더군요. 그래서 서평에도 제대로 쓰기가 어려웠습니다