[알라딘서재]빅데이터가 만드는 아찔한 세상

빅데이터가 만드는 아찔한 세상ｌ마이리뷰

CREBBP l 2014-07-22 12:47

https://blog.aladin.co.kr/705307136/7081321

빅 데이터가 만드는 세상 - 데이터는 알고 있다 빅토르 마이어 쇤버거 & 케네스 쿠키어 지음, 이지연 옮김 / 21세기북스 / 2013년 5월 평점 : 품절

빅데이터란

빅 데이터의 개념을 소개하기 위해 이 책의 서장은 구글이 성취한 놀라운 독감확산예측 사례를 대뜸 들이댄다. 구글은 독감의 확산을, 특정 지역 어느 주에서 유행할 것이라는 수준까지 예측해냈다. 방법은 계절독감의 확산과 관련해 미국인들이 가장 많이 입력한 5천만 개의 검색어와 질병관리본부의 데이터를 비교, 특정 검색어의 빈도수와 여러 지역의 장기간에 걸친 독감 확산 사이의 상관관계를 찾아낸 것이다. 이렇게 해서 독감과 97%의 상관성을 갖는 검색어 45개를 찾아냈다. 기존의 모델이 환자 발생 1~2주 후에나 동작했던 것에 비해 이 모델은 실시간 예측이 가능하다. 전체 데이터를 사용할 수 있게 되자 정보의 방대함에 가려져 있던 세부 사항과 연결점을 찾아내는 일도 가능해졌다.

과학자들이 2003년 처음 인간 게놈을 해독했을 때, 30억개의 염기쌍을 배열하는 데 꼬박 10년이 걸렸다. 10년이 지난 지금 그 정도의 DNA는 단일 연구소가 하루 만에 분석할 수 있다. 미국 주식시장에서는 매일 70억주가 거래되는데 그 중 3분의 2는 리스크를 피하고 수익을 예측하기 위해 엄청난 양의 데이터를 처리하게끔 설계된 수학적 모델에 기초한 컴퓨터 알고리즘에 의해 거래된다.

빅데이터의 사용 예는 이 책에서 사례로 제시하는 것들만 해도 막연한 상상력 넘어의 세계이다. 국제 금융 이체를 전문으로 하는 기업 Xoom은 Discover Card의 거래 횟수가 평균치보다 약간 상승하는 것을 감지하여 범죄 조직이 만든 거래를 실시간으로 발견했다. 샘플링으로 조사했다면 감지하지 못했을 패턴을 전체 데이터의 감시 체계 내에서 발견했다. 페어캐스트는 항공권 예약 판매 데이터의 사용권을 얻어, 1년 내내 미국 민간 항공의 거의 모든 노선의 전 항공편 전 좌석 정보에 기초해 미래의 항공 운임을 예측했다. 할인 소매점 타깃은 신용카드나 포인트 카드를 사용한 고객의 구매 패턴을 분석해 임신 예측 점수와 출산 일까지 근사치에 가깝게 맞추어 표적 마케팅에 이용했다.

1920년대에 양자역학이 발견되었고 포괄적이고 완벽한 측정이라는 인류의 꿈은 영원히 산산조각 났다. 지금 속출하는 새로운 많은 상황에서는 부정밀성을 용인하는 것이 단점이 아니라 오히려 긍정적 특정일 지 모른다. 허용가능한 오류의 기준을 느슨하게 하면 훨씬 더 많은 데이터를 손에 쥘 수 있다. 양적 변화는 질적 변화를 만들어낸다. 컴퓨터가 인간처럼 생각하도록 가르치려는 게 아니라, 엄청난 양의 데이터에 수학을 적용해 확률을 추론하려는 노력이다.

인과성은 필요없다. 중요한 건 상관성.

이제까지 우리는 작은 규모의 샘플 데이터의 틀 안에서 모든 현상의 인과성을 설명하는 과학적 사고 방식에 의존하여 살아왔는데, 이제 막 펼쳐지기 시작한 빅 데이터 시대는 우리가 사는 방식, 세상과 소통하는 방식에 도전한다는 것이 저자 빅토르 마이어 쉼버거와 케네스 쿠키어가 이 책에서 제시하는 핵심적인 철학이다. 인과성에 대한 집착을 일부 포기하고 단순한 상관성에 만족하는 일은 수백 년간 이어져온 관행을 뒤집는 일이며 의사 결정 방식이나 현실에 대한 이해 방식을 흔드는 일이라는 것이다.

양적 변화는 질적 변화를 일으킨다.

샘플링은 정보 부족 시대의 발명품이며 아날로그 시대가 정보를 다룰 때 가질 수 밖에 없었던 한계의 산물이지만, 무어의 법칙이 유효한 고성능 대용량 디지털 보급 기술은 낱개 하나하나로서의 데이터를 전체로서의 거대한 데이터로 치환하고, 그 속에서 진리를 찾아낼 수 있다.

구글 번역 시스템이 잘 작동하는 이유는 고품질이 아닌 더 많은 데이터를 사용했기 때문이다. 구글이 공개한 1조 단어짜리 말뭉치는 인터넷에서 떠돌아다니던 콘텐츠를 가져온 야생의 데이터였다. 이것을 trainning set으로 해서 영어 한 단어가 다른 단어 다음에 올 확률을 계산했다.

빅데이터의 핵심은 기존의 스몰데이터에서 요구되었던 데이터의 정확성, 행과 열의 반듯함 속데 갇힌 인간 사고의 한계를 벗어나, 데이터의 들쑥날쑥함과 불완전함을 허용함으로써, 더 많은 데이터를 예측에 이용할 수 있다는 것이다. 지금까지는 오류를 항상 문제 요소로 보고 없애려고 들었으나, 스몰데이터에서 빅데이터로의 이행은 이런 오류가 불가피한 것이니 받아들이는 법을 배워야 겠다는 근본적인 변화를 요구한다.

정밀성에 대한 집착은 정보가 궁핍했던 아날로그 시대의 발명품이다. 데이터가 희박할 때는 모든 데이터가 중요하므로 그 중 하나라도 분석을 망치지 않도록 극히 조심해야 했다. 이를 위해 인간이 수백년동안 개발해 온 각종 분류 체계와 인데스는 언제나 불완전했다. 불편한 도서관 장서 목록 카드가 그것이다. 빅데이터 시대에 분류 체계 대신 등장한 새로운 메커니즘은 태그이다. 태그는 음악, 영상, 이미지 등의 비텍스트 기반의 방대한 콘텐츠를 탐색하는 새로운 길을 열어주었다. 태양 아래 모든 게 줄과 열에 딱딱 맞아 들어가는 척하면서 야단 법석인 무균상태라는 거짓말에 대한 해독제이다. 이 세상에는 정확성의 철확으로는 꿈꿀 수 없는 것이 많다.

전체 디지털 데이터 중에서 구조화되어 있는 것은 단 5퍼센트이다. 데이터의 들쭉날쭉함을 수용하지 않는다면 나머지 95퍼센트의 데이터는 암흑 지대로 남게 된다. 부정확함을 허용한다면 아직 알려지지 않은 통찰들로 가득한 새로운 우주로 가는 길이 열린다.

데이터 잔해

그렇다면 무엇이 빅데이터의 소스가 될까. 아직까지 딱히 그 용도를 찾지 못한 버려진 쓸모없는 데이터들까지 미래에 확장 가능한 고부가가치를 창출할 것으로 믿고, 수집한다는 것이 빅데이터 회사들의 철학이다. 확장 가능성을 염두에 두고 데이터를 수집하는데 가장 뛰어난 회사는 구글로, 예를 들어 구글의 스트릿뷰 자동차들은 사진뿐 아니라 GPS 데이타를 수집하고 지도 정보를 확인하며 심지어 wifi 네트워크 이름까지 불법적으로 모두 빨아들인다고 한다. 구글 스트릿 뷰 촬영용 차량 한 대가 지나갈 때마다 매순간 갖가지 수 많은 데이터가 축적됐다. 심지어는 사람들이 남기고 간 디지털 흔적인 데이터 잔해, 어디를 클릭하고 한 페이지를 얼마나 오래 보며, 마우스 커서는 어디를 배회하고, 무엇을 타이핑하는 지까지 수거해 재사용할 수 있는 방향으로 시스템을 설계한다는 것이다.

구글의 뛰어난 음성 인식, 스팸필터링, 번역을 비롯한 많은 서비스의 배후에 있는 메카니즘이 데이터 잔해이다. 소비자와 검색엔진 사이에 찰라적 소통이 있고 나면 화면에는 웹사이트를의 목록과 광고가 쫙 나타난다. 전자책 단말기는 이용자의 독서 성향이나 습관에 관해 엄청난 양의 데이터를 수집한다.

데이터 잔해의 사용 예도 상상을 초월한다. 인터넷 이용자가 쓰고 버린 검색어 데이타를 수집해 실시간 경제지표를 판매하는 구글의 비즈니스 예측 서비스, 데이터가 드나드는 통로의 웹트래픽을 분석해 고객이 소비자 선호도를 서비스하는 히트와이즈, 물건을 배송하는 과정에서 우연히 수집된 전세계 제품소개에 관한 많은 정보를 이용하여 축적된 데이터를 비즈니스 및 경제 예측이라는 형태로 판매하는 로지스텍스 회사, 자신들의 네트워크를 거쳐간 자금이체 데이터에 기초해 GDP를 예측하는 세계 은행 간 자금이체 협의체인 SWIFT 등이 그것이다. 지금 위치 사업자들이 판매한 위치정보는 금요일 밤에 사람들이 어디에 모이는지 도로에 차들이 얼마나 천천히 움직이는지 등의 집결된 절보를 이용해 부동산 가치 평가와 게시판 광고의 가격을 정할 수 있다.

빅 데이터 시대의 새로운 위험 요소

세상은 우리를 끊임없이 감시한다. 아마존은 월요일 쇼핑 취향을 고른 월요일 브라우징 습관을 모니터 학교 트위터는 우리의 마음속에 있는 것을 알고, 페이스북은 사회적 인간 관계 정보까지 수집하고, 이동통신 사업자들은 누구와 이야기를 하는지 근처에 누가 있는지까지 안다는 저자의 글이 남의 나라 이야기가 아니다. 한 개인당 나라가 정해준 식별 id인 주민등록 번호로 개인의 모든 것을 ..할 수 있는 우리나라의 경우 개인 정보의 노출은 미국보다 심하면 심했지 덜하지는 않을 것이다.. 인터넷 시대의 사생활 위협은 빅데이터의 시대에 어떤 변화의 양상을 갖게 될까.

저자는 빅데이터가 사생활 보호의 위험 요소 뿐만 아니라 완전히 새로운 위험 요소인 '성향에 기초한 불이익'을 탄생시킬 수 있음을 우려한다. 마이너리티 리포트라는 영화에서처럼 행동하기도 전에 예측을 이용하여 벌을 주는, 공정 정의와 자유 의지라는 개념을 초토화시키는 일이 빅데이터 예측 시스템에 의해 생겨날 가능성이 있다는 것이다. 빅데이터를 제대로 통제하지 못하거나 데이터 의미를 착각했을 때 위험은 online 표적 광고 따위와가 비교도 안될만큼 위험한 것이라고 경고하면서, 과거의 통치자들이 어떻게 개인정보를 탄압에 사용해 왔는지 많은 예들을 제시한다.

AOL과 넷플릭스의 익명화된 빅데이터 정보 방출이 어떻게 개인 식별에 쉽게 이용될 수 있었는 지의 사례는 섬뜩하기까지 하다. 전기 및 수도 계량기는 개인이 쓴 전기의 양만 수집하는 것이 아니라 매 6초마다 전기 부하의 서명을 측정해 감으로써, 가정의 에너지 사용 습관, 건강 상태, 불법활동까지도 감지할 수 있다고 한다. 모든 사람의 정보가 들어 있는 데이터 집합에서는 탈퇴 가 새로운 정보의 가치로 평가될 수 있다. 빅데이터 시대에는 현재까지 우리가 사용해온 사생활 보호 방법들이 전혀 통하지 않는, 문자 그대로 무방비로 노출되고 있다고 보아야 겠다. 우리 생활의 모든 측면에 관한 수많은 개인정보를 우리가 이용하는 모든 회사들이 촉적하고 공유하며 우리가 상상할 수 없는 방식으로 그 정보를 사용한다는 사실. 나보다 더 많이 나에 대한 데이터가 여기저기 구석구석 어딘가에 쌓여가고 있다는 사실은 오싹하다.

생각보다 빠른 미래에 지금은 순전히 인간의 판단 영역에 속하는 많은 것들이 컴퓨터 시스템에 의해 보강되거나 대체될 것이다. 구글이 나의 선호도와 취향을 분석해 가장 적절한 웹사이트부터 순서대로 보여주는 것처럼, 페이스북이 나와 연줄이 닿아 있는 사람을 찾아 나열해주듯, 어쩌면 실제 범죄가 일어나기도 전에 범죄자를 찾아내게 될 지도 모른다.