버스트 - 인간의 행동 속에 숨겨진 법칙
앨버트 라슬로 바라바시 지음, 강병남.김명남 옮김 / 동아시아 / 2010년 7월
평점 :
절판


이런 질문을 받으면 대부분은 답이 뻔하다. ‘아니다’라는 것이다. 사람의 행동을 예측을 할 수 있고 역사가 어떻게 흐를지 예측할 수 있다면 얼마나 좋겠는가? 그러나 인간은 사회는 예측할 수 없다는 것이 정설’이었다’

이책에 인용된 포퍼의 말에 따르면 인간과 사회는 자연과 달리 정적이고 고립된 반복적인 시스템이 아니기 때문에 예측은 무의미하다.

과학철학자만 그런 말을 하는 것은 아니다. 사회학자 기든스는 사회과학에 법칙이 있을 수 없다고 말한다. 법칙이 설사 발견되더라도 발견된 즉시 그 법칙은 법칙이 작용하는 대상인 사람들에게 알려진다. 법칙을 안 사람들은 그 법칙을 이용하게 되며 알려진 법칙은 알려짐과 동시에 수정되어버린다. 지금까지 사회과학의 역사는 과학과 그 대상의 그러한 변증법적 상호작용의 역사였다. 그리고 사회과학 자체가 자신의 발견을 대상인 사회에 적용하는데 앞장 서면서 자신이 찾아낸 법칙을 무너트리는데 앞장 서왔다. 그러므로 사회과학은 자연과학과 같은 객관적 법칙이 가능하지 않다.

강력한 논리이다. 그러나 이책의 저자는 정말 그럴까? 라고 묻는다. 사회의 수준까지는 아니더라도 인간의 행동은 그렇게 예측이 힘든 것은 아니지 않을까라고 저자는 생각한다. 저자가 그런 생각을 할 수 있게 된 것은 인터넷과 모바일 통신이 발전하면서 인간의 행위에 대한 자료가 실시간으로 방대한 양으로 축적되면서 부터이다.

이책에 인용된 휴대폰 사용기록 데이터를 분석한 연구를 예로 들어보자. 휴대폰 기지국을 설치하려면 먼저 예상 통화량이 얼마나 될지 예측할 수 있어야 한다. 통화량보다 용량이 작은 중계기를 설치하면 통화 병목현상이 일어나 통신사의 신뢰도가 엉망이 될 것이고 통화량보다 지나치게 큰 중계기를 설치한다면 그건 그거대로 통신사에 재앙이다. 그러나 통신사들은 별 문제없이 중계기를 설치한다. 통화량이 예측가능하다는 것이다.

예측가능한 것은 중계기가 설치될 지역의 통화량만이 아니다. 지역단위의 통화량뿐 아니라 개인가입자 역시 예측가능하기는 마찬가지이다. 우선 가입자들의 대부분은 어디 있을지 예측이 가능하다. 우리가 어느 시간에 어디 있을지는 대부분 뻔하기 때문이다. 어느 시간에 집에 있을지 어느 시간에 어디서 근무할지 이맘때면 어느 거래처를 들를지 대개는 뻔한 스케줄에 따라 움직인다. 어디 있을지 뿐만이 아니다. 누구와 통화할지 언제 통화할지도 대개는 뻔하다.

물론 개인차는 존재한다. 통화량이 대부분은 거기서 거기이고 어디서 통화를 하고 통화를 받을지 뻔하지만 그 양의 편차가 다른 가입자들과는 지나치게 큰 차이를 보이는 사람이 있게 마련이다. 출장을 자주 간다든가 해외로 자주 다니는 사람이라든가 이런 사람이 있게 마련이다. 평균적인 가입자와는 다른 예외값에 속하는 사람들이다.

통화량이나 이동거리등을 통계로 그려보면 일정한 패턴이 나오며 예측이 가능하다고 저자는 말한다. 문제는 그 패턴이다. 보통 우리가 수학적으로 예측할 때 기준이 되는 확률분포는 정규분포이다.

정규분포의 그래프는 주사위를 던져 나오는 값의 분포도를 그릴 때 나오며 종 모양의 그림이 그려진다. 그러나 인간이 관계된 경우 정규분포와는 다른 확률분포를 그린다.

저자는 그 패턴이 멱함수 분포를 따른다고 말한다. 랜덤한 사건들의 분포인 정규분포와 달리 멱함수 분포는 어떤 규칙을 따르는 이벤트들의 분포이다. 이며 정규분포의 정점을 기준으로 한쪽을 잘라낸 모양에서 곡선의 곡률이 더 가파른 모양을 띈다.

도시의 크기를 예로 들면 서울이나 도쿄, 뉴욕과 같은 천만 이상의 메트로폴리스는 극히 작다. 그리고 대부분의 도시는 그보다 인구가 작게 마련이다. 그러나 인구분포의 빈도에 따라 도시의 수를 그래프로 그려보면 아주 대규모의 도시 몇 개가 있고 중간수준보다는 소규모의 도시가 압도적으로 많은 불균등한 분포를 보인다. 부의 분포 역시 마찬가지이다.

도시의 인구나 부의 분포는 랜덤하게 일어나는 현상이 아니다. 어떤 규칙에 따라 그런 분포가 나타나며 규칙에 따른 분포인 경우 정규분포가 아니라 불균등한 멱함수분포를 그린다고 저자는 말한다.

그리고 사람의 행동 역시 마찬가지라고 말한다. 저자는 이메일 발송횟수를 예로 든다. 저자가 자신의 이메일 발송 시간과 횟수의 분포를 그려보니 랜덤하게 분포하지 않는다는 것을 발견한다. 몇분 간격으로 균등하게 이메일을 발송하는 것이 아니라 특정 시간에 ‘폭발적’으로 다량의 이메일을 작성한다는 것이다. 이메일 발송만 그런 것이 아니라 인간의 행위 역시 정규분포가 아니라 특정 시간에 몰려 폭발하는 것과 같은 멱함수 분포를 따른다는 것이다. 저자는 이런 분포가 만들어지는 이유를 자원의 희소성 때문이라 본다. 시간은 희소자원이기 때문에 그 시간을 분배할 때 우선순위를 적용하게 되고 우선순위를 적용하다보면 한번에 몰아서 이메일을 작성하는 것과 같이 행위에 폭발성의 패턴이 만들어진다는 것이다.

인간의 행동만 그런 것은 아니라고 저자는 말한다. 동물들도 시간과 에너지가 희소한 것은 마찬가지이다. 그렇기 때문에 동물들의 행동 역시 멱함수분포를 그리며 폭발성을 띈다고 저자는 말한다.

저자는 어떤 연구자가 어릴 때 산딸기를 채집한 경험의 예를 든다. 그 연구자는 들판에서 산딸기를 최대한 모으기 위해 ‘폭발성’ 탐색 패턴을 따랐다. 들판 모두를 일정한 구역으로 나누고 순차적으로 뒤지는 것은 이론적으로는 그럴 듯하지만 시간과 에너지가 제약되게 마련인 현실에선 비현실적이다. 그런 경우 나타나는 행동패턴은 무작위로 걷다가 아무 곳이나 멈춰서는 그 둘레를 집중적으로 탐색하고 다시 무작위로 아무 곳이나 간 다음 집중적으로 탐색하는 폭발성 패턴이 현실적이다. 동물들 역시 먹이를 찾을 때 마찬가지 패턴을 보인다고 저자는 말한다.

이상이 이책의 내용이다. 최근 디지털 데이터가 방대하게 축적되면서 그 데이터를 분석해 인간행동을 예측하려는 데이터 마이닝 기법이 등장하고 있다. 이책은 그러한 데이터 마이닝의 방법론을 제시하려는 것이라 할 수 있다. 즉 데이터 마이닝이 예측하려는 것이 무엇인가, 즉 그 데이터의 확률분포가 무엇이고 그러한 확률분포는 왜 나오는가를 설명하려는 시도이다.

그러나 역자가 후기에서 말하고 있듯이 이책은 암시적일 뿐이다. 이전의 저서인 ‘링크’는 읽고나면 아 네트웤 과학이란 이런 거구나란 말을 할 수 있는데 이책은 그런 말을 할 수 없는 책이라 역자는 말한다. 그 이유는 데이터 마이닝 자체가 아직 초기단계이고 그에 대한 이론적 정립은 더더구나 시도단계에 그치고 있기 때문이라고 저자는 말한다. 그렇기 때문에 이책에는 어떤 분명한 이미지가 그려지지 않는다. 더더군다나 앞에서 말한 포퍼나 기든스의 논리를 부술 수 있는 논리를 만들고 있지도 못하다. 그렇지만 최소한 위에서 요약한 것과는 같은 내용을 보여준다는 점에서, 아직 자라나고 있는 분야를 보여준다는 점이 이책의 가치이다.

댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo