-
-
빅데이터, 승리의 과학 - 빅데이터는 당신이 무엇을 선택할지 알고 있다
고한석 지음 / 이지스퍼블리싱 / 2013년 4월
평점 :
품절
빅데이터, 승리의과학
소위 IT업계의 끄트머리에서 밥을 먹고 있는 사람으로서 그래도 IT트랜드(Trend)에는 살짝 귀를 열어 놓고 신문조각을 읽듯 정보를 수용하는 사람으로서 올해의 주요 이슈라는 빅데이터(Big Data)에 전혀 무관심할 수 만은 없었다. 그러나 열심히(?)일만 해야 하는 요즘 상황에서는 빅데이터의 도입은 커녕 제대로 알기도 쉽지 않다. 그나마 최신 동향을 귀동냥하는 동아리 게시판에서 빅데이터에 대해 누군가 흘려주는 조각들을 맞추고 있었다. 그런데 누군가 빅데이터 활용에서 하둡의 역할에 대해 이야기를 하는 순간 빅데이터는 갑자기 프로그램이라는 큰 벽으로 가로 막혔다. 그리고는 그냥 그냥 문자 그대로 ‘올해의 키워드’로 돌아가 버렸다. 대충 감은 잡았으니 위안을 삼으며 말이다.
그러다가 이 책을 읽게 되었다. 보통의 경우 책을 잡으면 한 달음에 읽어 나가는 습관 때문에 어떤 종류의 책이던 하루에 읽는 분량이 일정하지만 이상하게 이 책을 읽고 있는 동안에는 진도가 나가지 않아 힘들었다. 내용은 어려워서도 아니고 재미가 없어서도 아니었다.
알고 있던 것들을 지워버리자. - 빅데이터란?
1/3 정도를 읽은 후에 그 동안 알고 있던 조각의 지식들을 모두 버려야 했다. 빅데이터라는 것이 세상에 산재한 모든 자료, 즉 모든 콘텐츠들에서 특정 목적에 유의미한 것을 산출해낸다는 개념을 제외하고는 빅데이터에 대한 오해들을 모두 지워 버려야 했다. 가장 큰 오해는 바로 방법론에 대한 것이었다. 흔히 빅데이터가 어떤 기법이라는 식의 이해가 쉬운데 사실 빅데이터는 새로운 기법도 아니고 어떤 기술을 의미하는 것도 아니다.
빅데이터는 개발자들이 다루는 솔루션만을 의미하지도 않다. 빅데이터가 산재한 모든 콘텐츠를 모아 분석한 후에 의미있는 콘텍스트로 만들어 내야 하기 때문에 반드시 통계분석이 필요하다. 따라서 빅데이터의 방법론에서는 프로그래밍 보다는 통계분석이 더 중요하고 더 많은 시간이 할애된다. 사실 협의에서 보면 빅데이터에서의 IT의 역활은 대량의 데이터를 다수의 방법으로 빠르게 처리할 수 있는 화일시스템의 적용, 빠른 처리 능력을 가진 하드웨어와 대량의 데이터 저장을 위한 크고 안정적인 클라우디 컴퓨팅 시스템을 구축하는 것이다. 사실 오마바측의 디지털팀 책임자인 조로스파스의 회고에서 보듯이 그들이 새로 만든 것은 거의 없었다. 그들이 수행한 것은 기존에 만들어져 있던 것들은 적절히 배치, 연결하고 효율적으로 운용한 것이다. 따라서 ‘빅데이터=하둡’ 이런 식으로 피상적으로 이해하게 되면 어쭙잖은 지식과 무식한 추진력으로 IT에 대한 불신만 키울 수 있다.
사실 필자가 빅데이터를 공부해보자 했던 마음에 걸림돌이 되었던 하둡도 알고 보면 빅데이터 용이라기 보다는 기존에 이미 존재하는 FAT32같은 화일 저장과 호출 방식에서 진일보한 대용량 화일 시스템 방식 중에 하나일 뿐 이다.
그 동안 어설프게 알고 있던 빅데이터에 대한 지식들을 모두 모른체하고 이 책을 읽어보자.
빅데이터라는 개념이 만들어진(사실 거의 모든 IT의 기반이 시작된) 미국에서도 빅 데이터를 적절하게 이용한 눈에 띄는 사례는 찾아보기 힘들었다. 물론 빅데이터라는 개념에는 집단지성 같은 개념도 포함되어 있기(필자의 의견) 때문에 아마존 같은 사례를 빅데이터의 사례라고 말할 수도 있을 것이다. 그러나 빅데이터는 자체 시스템 밖을 포함하고 고정된 형태의 데이터가 아닌 어떤 형태로 존재하는 디지털 데이터를 모아서 의미 있는 결과를 만들어내는 것이기 때문에 특정 쇼핑몰이나 다른 목적과 물리적으로 분리된 서비스라도 연동이라는 조치를 통해 이루어지는 흐름을 빅데이터 라고 말하기에는 애매한 구석이 있다. 그런 상황에서 2012년 오마바 선거캠프에서 이루어진 일련의 기술적 실험과 진보는 큰 의미가 있다고 할 수 있다.
혁신이 어렵지만 효과는 폭발적 인…
일반 기업의 마케팅 활동에서는 제품의 특징을 정의하고는 일부터 마케팅 대상을 정하고 그들의 특징을 정의하여 소구점을 찾아내는 작업 그리고 실행과 실행 후 성과를 측정하는 일련의 절차에서 오차를 줄이기 위한 노력으로 각종 통계치, 소비자의 성향을 분석한 이전의 자료, 선별된 소비자 그룹에 대한 인터뷰(FGI) 광범위한 설문조사의 결과를 동원한다. 심지어 이 분야 최고의 베테랑의 감(?)까지도 동원한다. 모든 과정들의 목적은 당연히 특정 제품이나 서비스의 판매 촉진이지만 한편 마케팅에 소요되는 모든 자원 대비 결과(ROI)을 높이자는 목적도 크다.
선거도 메커니즘을 보면 기업의 마케팅 활동과 동일한 원리가 적용이 된다. 다만. 그 규모나 중요성이 매우 높다 보니 자칫 기업에서는 흔하게 행해지는 마케팅 활동이 무시되는 경우가 종종 있다. 정치권은 어떤 권력자의 의지나 이익집단의 압력행사, 공공연히 퍼져있는 관료주의 등으로 인해 분석과 평가 없이 캠페인(Campaign)이 진행되는 경우가 많다.
2008년 오마바가 미국 대통령을 당선되었을 때 그의 당선이 SNS의 힘, IT의 힘 입은 바 크다고 한 적이 있다. 2008년 대선 때 오마바 캠프가 IT자원을 충분히 활용한 것은 아니었다. 그러나 그 때까지 정치권은 여전히 일부 전문가라는 이들의 소위 ‘감’에 의해 캠페인이 진행되던 시기라서 그 정도로도 획기적으로 보였던 것이다.
기술 그리고 리더
오마바 캠프는 대선 1년 6개월 전부터 캠프를 차리고 자신들의 방향성을 잡는데 이 때 가장 필요하다고 인지된 것이다. 유권자들의 성향을 분석하여 일선 자원봉사자들(선거활동가들)에게 최적화되고 적중률 높은 예측 데이터를 제공하는 것이었다. 2008년에 일부 시도는 되었지만 당시에는 이들도 경험이 부족했고 민주당 내의 분위기상 제대로 된 준비를 할 수 없었다. 그런데 2011년에는 달랐다. 2008년에 경험한 긍정적인 경험과 데이터를 통해 의사결정에 대한 신뢰 그리고 2억명이나 되는 유권자들의 상세한 데이터를 분석하고 처리할 수 있는 방법들이 존재하고 있었다.
그리고 가장 중요한 부분이 준비가 되어 있었다.
2008년에 이미지 오바마는 기존 정치권에서 행해지던 권력자와 소위 전문가라는 이들의 주관적인 판단에 대한 도전장을 내밀었었다. 또한 이번에는 캠프 책임자인 짐 메시나의 인터뷰처럼 ‘데이터를 통하지 않은 어떤 한 결정도 없다’고 라고 못을 막아 버렸다. 그리고는 유래가 없는 엔지니어와 과학자 모집에 들어간다. 통계학자, 예측분석 모델링 기술자, 프로그래머, 디자이너들이 대거 캠프에 합류한다. 오바마 캠프의 디지털팀은 300명이 넘었고 이들은 캠프 1년전에 이미지 작은 성과들을 만들어 가고 있었다.
이에 반해 롬니의 캠프는 시작에서 늦었고 예산도 비교가 안되었으며 롬니가 그 유명한 베인 컴퍼니의 컨설턴트 출신이고 성공한 비즈니스맨임에도 불구하고(어쩌면 이런 배경 때문에 당연 했을지도 모르지만) 소위 전문가라는 이들을 주변에 배치한 후 해당 분야에 대해 그들이 알아서 하게 내버려 두었다. 모든 기술적 지원은 캠프에 입성(?)한 해당 분야 전문가들이 자신의 회사에 외주를 주고 유독 서버들 만을 캠프 내에서 집중 관리하는 행태를 보였다. 보안 유지를 위해 데이터는 내부에서 관리하고 각종 서비스는 비용 절감을 위해 저렴한 용역 업체에 주는 전통적(?) 형태의 시스템을 구축했다.
오마바 캠프가 취한 몇 가지 혁신적인 전략
오마바 캠프는 키 데이터 일부만 자체에 두고 대부분의 서버를 전국적인 데이터 센터를 갖추 아마존에 맡겼다. 선거를 위한 시스템은 선거 막바지에 이르면 트래픽(traffic)이 폭발적으로 증가하지만 선거가 완료되면 대부분 처분해야 하기 때문에 자체에서 구축하기에는 비용 부담이 엄청나다. 그리고 초기에 시스템을 구축하고 난 후 예기치 못한 사고로 시스템이 죽거나 예상치 못한 트래픽 폭주로 서비스가 먹통이 되는 경우에 원활한 대응을 하기 어렵다. 그러나 아마존의 클라우드(Cloud) 서비스는 서버를 전국 단위로 분배할 수도 있고 트래픽이 폭주하면 자동으로 서버를 증설하거나 서버들의 성능을 조정할 수 있고 사용한 만큼만 비용을 지불하는 방식으로 비용 절감과 원활한 서비스를 동시에 잡을 수 있었다.
선거에 소용되는 소프트웨어와 APP, 웹사이트 등의 모두 디지털 팀에서 캠프 내 각 팀에서 요청하는 사양들을 정리하여 만들었다. 다만 기본적인 모듈들은 가능한 오픈소스(Open Source)를 이용하여 팀의 자원을 절약하도록 했다. 이 결정은 소프트웨어 운용 경험이 많은 사람이라면 당연한 결정이다 상용 소프트웨어는 초기 도입 비용은 저렴하지만 조직의 요구에 맞게 바꾸는 작업은 상당히 비싸고 더욱 큰 문제는 변경하는데 시간이 어마 어마하게 든다. 거기다가 여러 가지의 상용 소프트웨어를 동시에 연동하여 사용하는 경우에 각 SW마다 서로 맞지 않는 부분을 수정해야 하고 자동화가 되지 않아 발생하는 업무 손실이 많으며 거기다가 오류가 발생하더라도 외부 전문인력에 손에 맡겨야 하기 때문에 비용과 시간 소모가 심하다. 가장 큰 손실은 궁극적으로는 이렇게 상용SW만으로 구성된 시스템의 경우 내부에 적절한 인력을 배치하기 어렵기 때문에 운용자체를 각각의 외주 업체에 맡겨야 한다. 거기다가 최악의 상황은 비싼 돈을 들여서 도입한 시스템에 대한 운용 노하우를 소유할 기회가 없다는 것이다.
자율적으로 돌아가는 팀을 구성하여 전문가들의 힘을 배가 시켰다. 오마바 캠프의 디지털팀은 각 분야의 전문가들이 모였고 팀은 상위 조직이나 비 IT조직에 관리를 받지 않는 조직이었다. 따라서 관료적일 수 있는 캠프 분위기에 끌려가지 않고 자신들의 아이디어를 충분히 발휘하여 캠프 각각의 조직에서 필요로 하는 최선의 툴들을 제공하고 때로는 적절한 선거 진행을 위한 제안을 할 수도 있었다.
빅데이터/ 빅리더, 누구의 승리인가?
2012년 미국 대선에서 오바마가 재선에 성공하면서 캠프내의 디지털팀은 말 그대로 상종가를 쳤다. 그리고 오마바 캠프가 선거를 진행하면서 사용한 소위 ‘빅데이터’라는 전략(?)은 마치 승리 도구인 것처럼 유행을 하는데 필자가 결론을 지으면서 생각한 것은 과연 승리의 기술은 어떤 것이냐? 이다. 빅데이터인가 아니면 빅리더(보스)인가 이다. 빅데이터를 적절히 사용하기 위해 사용된 기법이나 기술이나 서비스 모두가 성공의 중요한 요인들이었지만 그 이전에 리더(보스)의 올바른 판단과 추진력이 반드시 필요했다는 점에서 일방적으로 빅데이터의 승리라고 말하고 싶지 않다.
마지막으로 빅브라더(Big Brother)의 문제는 쉬운 명제는 아니지만 반드시 집고 넘어가야 할 문제이다. 오마바 캠프가 어떻게 데이터를 모으고 의미를 만들어 갔는지에 대한 소개에서 보면 개인정보가 제거된 채 우리의 일상 생활의 흔적이 묻은 거의 모든 데이터가 수집되고 거래가 된다. 그리고 그렇게 가공된 데이터는 어떤 경로를 통해서든 다시 개인 식별 정보가 붙어서 사용된다. 자칫 개개인의 일상이 분석될 가능성이 충분하다는 이야기이다. 누군가 악의적으로 이 방대한 데이터를 취합하고 이용할 수 있다는 점은 개인, 기업, 국가 할 것 없이 조심스럽게 접근해야 할 문제이다.