
지금의 핫 키워드는 빅 데이터다
특별히 민감하게 IT에 관해 관심을 기울이지 않아도 듣게 되는 단어들이 있습니다. 그야말로 그 때의 대중적인 IT 산업을 대변하는 "핫 키워드"들인데요, IT지식과는 거리가 먼 저 역시도 클라우드 기술, 소셜 네트워킹 서비스(SNS), 바이럴 마케팅 등은 이미 친숙하게 들어왔습니다. 그것이 정확하게 무슨 뜻인지는 몰라도, 대충 경험상 이러이러한 내용일 것이다라고 유추할 수 있을 정도의 친숙함이었죠.
하지만 요즘 들어 부쩍 들리는 키워드는 다름 아닌 "빅 데이터"입니다. 아니 빅 데이터는 뭐고, 그럼 스몰 데이터도 있다는 건지, 말만 들어서는 어떤 개념인지 잘 알 수 없는 "빅 데이터". 하지만 우리에게 익숙한 수 많은 기업들 (대표적으로 페이스북과 트위터, 우리나라 사람들에게는 조금 생소한 아마존이나 이베이 등) 이 바로 이 "빅 데이터"에게 그야말로 뜨거운 관심을 기울이고 있는 것으로 봐서는 분명 지금을 대변할만한 "핫 키워드"임에는 분명한 것 같습니다. 시로타 씨의 책은 바로 이 "빅 데이터"에 관한 책입니다.
"대용량 데이터를 분석해 가치 있는 통찰과 지식을 얻고자 하는 노력을 '빅 데이터'라고 부르며, 현재 IT 업계를 넘어 신문과 TV 뉴스 채널에 특집이 편성될 정도로 큰 물결이 되어 주목받고 있다." (서문 중)

"어째서 페이스북과 트위터는 무료 서비스일까?", 그리고 더 나아가서 "모든 것이 무료임에도 어째서 이 기업들이 어마어마한 매출을 올리고 있는 것일까?" 궁금했던 여러분이라면 이 책에서 보다 충격적이고 대단한 진실을 만나게 될지 모릅니다. 월간 실사용자가 무려 10억명에 육박한다는 페이스북은 매일 엄청난 양의 데이터가 축적됨과 동시에 가장 발달한 기술로 분석되고 있습니다. 그야말로 우리의 모든 것을 보고(watching) 있는 빅브라더가 등장한 셈입니다. 우리의 예상과 달라진 것은, 빅브라더가 우리를 보고 있다기 보다는, 우리 스스로가 빅브라더에게 우리의 정보를 전하고 있는 것이죠. 그리고 이 빅브라더가 가진 엄청난 능력이자 재력이 바로 "빅 데이터"입니다. 전 세계에 퍼져있는 유저들이 자발적으로 올리는 포스팅과 사진, 비디오, 링크 등이 모여 예전에는 상상조차 할 수 없었던 어마어마한 데이터베이스를 축적하고 있는 것입니다.
놀라운 것은 이 "빅 데이터"가 단순히 어느 지방에서 어느 제품이 인기가 있는지 등의 일차원적 분석에 그치는 것이 아니라, 훨씬 복잡한 구조로 가공되어 소비자의 쇼핑 패턴은 물론 구매 의지와 생활 패턴까지 파악할 수 있는 도구로 사용될 수 있다는 것입니다. 실제로 이미 많은 기업들이 이 기술을 도입하여 회사의 성장과 매출에 큰 기여를 하고 있습니다. 시로타 씨는 구체적인 기업과 그 전략 기술에 대해 소개하면서, 어떤 식으로 어떤 정보가 가공되고 있는지를 분석합니다. 또한 지금보다 빠른 시일 안에 어떻게 발전할 수 있는지에 대한 향후 가능성도 예측하고 있습니다.
예전에는 ARS 혹은 전화상담사가 일일히 고객에게 전화하여 그 의견을 물어보고 답변을 기다려야 했다면, 이제는 패턴 분석을 통해 자동화된 프로그램으로 소비자 한 사람 한 사람을 분석할 수 있게 되었습니다. 더이상 소비자의 짜증난 거부도, 성의없거나 거짓된 답변도, 정신적 스트레스를 견뎌가며 일하는 직원들도 필요하지 않게 된 것입니다. 3년 전 "클라우드"가 비즈니스에 엄청난 혁신을 가져왔다면, 이제는 "빅 데이터"가 새로운 혁신을 이어가고 있는 셈입니다.
빅 데이터의 활용 - 우리는 어떻게 간파되는가?
"분석과 관계 없이 실시간으로 발생하는 많은 데이터를 감시함으로써 '이상 값을 발견하는 것' 자체가 목적일 때도 있다. (...) 특히 빅데이터 활용에서 기대하는 것은 (...) 대량의 데이터 속에서 어떠한 '패턴'을 발견하는 것이다." (147 페이지)
소비자의 구매 내역이나 방문 횟수, 방문 경로와 패턴, 혹은 소비자가 자발적으로 올린 짧고 긴 글에서 원하는 정보를 얻어내는 것. 이것이 빅 데이터가 추구하는 최종 목적입니다. 이것을 위해서는 1) 어떻게 정보를 수집하는가? 2) 어떤 정보를 수집하는가? 3) 수집한 정보를 어떻게 분석하는가? 4) 분석된 정보를 어떻게 사용하는가? 가 최대 관건이라고 할 수 있습니다. 사실 빅 데이터는 (지금만큼은 아니지만) 예전부터 축적되어 왔고, 데이터베이스가 대단한 경쟁력이라는 것은 새로운 사실이 아닙니다. 그럼에도 불구하고 왜 하필 지금, "빅 데이터"에 대한 관심이 급부상하고 있는 것일까요? 그것은 바로 세번째 관건 "수집한 정보를 어떻게 분석하는가"에 대한 솔루션이 이루어져가고 있기 때문이라고 저자는 설명합니다.
"하둡의 큰 장점은 지금까지 비용, 처리 시간 면에서 포기할 수밖에 없었던 많은 양의 비구조화 데이터 처리를 가능하게 했다는 것이다. (...) 기업의 데이터 분석가나 마케터는 지금까지의 표본 데이터에 의존하던 분석에서 벗어나 연관된 모든 데이터를 분석할 수 있게 된다." (49 페이지)

'저희 제품을 구매해주셔서 감사합니다. 아래의 질문에 대답해주십시오. 저희 제품에서 가장 마음에 들었던 점과 가장 마음에 들지 않았던 점은 무엇입니까?'
예전에는 흔히 볼 수 있었던 동봉된 "고객의 소리" 카드입니다. 하지만 모든 것에 급한 현대인들 중 시간을 내서 진심으로 제품에 장단점에 대해 생각해보고 그것을 논리정연하게 정리해 회사로 다시 보낼 만큼의 여유를 가진 사람은 그리 많지 않습니다. 행여나 어떤 의견이 도착했다 하더라도 그것이 정말 100% 진실인지는 판단하기 어려운 것이 사실입니다. 수많은 변수를 통해 고객이 정직하게 응답하지 않았거나, 다른 업체에서 의도적으로 의견을 조작하여 보냈을 가능성도 있기 때문이죠.
하지만 하둡(Hadoop)의 등장과 사용으로 이 체계는 새로운 국면을 맞이하게 됩니다. 하둡은 '대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동장하는 분산 응용 프로그램을 지원하는 자유 자바 소프트웨어 프레임워크'로 이미 수 많은 데이터 분석 기업들이 하둡을 기반으로 플랫폼을 구축하고 있다고 합니다 (출처: 위키백과). 즉, 쉽게 설명하자면 지금까지는 아무리 많은 데이터를 모은다한들 그것을 분석 가능하게 만들 수 있는 방법이 없었는데, 하둡의 등장으로 회사가 원하는 정보에 도달할 수 있는 길이 생겼으며, 그것을 사용하는 것에 따라 고객이 회사에게 알리고 싶어하지 않는 정보까지 가공해낼 수 있게 되었다는 것입니다. 조금 더 쉽게 설명하여, 예전에는 "이 상품이 마음에 드십니까?"라는 대답에 "예"라고 대답해야 컴퓨터가 인식할 수 있었던 것에 반해, 이제는 어떠한 제품을 구매한 뒤 자신에 트위터에 "오 이 제품, 대박인데?" 라고 올린다면 그것이 그 제품에 대한 긍정적인 평가로 분석될 수 있다는 것입니다.
지금으로부터 약 5~6년 전, 외국의 가장 큰 온라인 쇼핑 사이트 "아마존"에서 자신의 "찜 리스트"를 다른 사람들에게 공개할 수 있게 되어 일부 소비자들이 이것은 엄청난 개인정보침해라며 적극대항한 일이 있었습니다. 알지 못하는 사이에 아마존의 방침이 변경되어 자신이 "찜 리스트"에 올려놓은 제품들을 제3자가 자유롭게 열람할 수 있게 된 일이었죠 (공개를 원치 않는다면 직접 계정설정에 들어가 일일히 '비공개'로 바꾸어야만 했습니다). 당시 아마존을 애용하는 고객이었던 저는, 저의 "찜 리스트"가 공개된 것이 탐탁치는 않았지만, 이것이 왜 구체적으로 저렇게 화를 내고 싸워야만 하는 일인지 잘 인식하지 못했습니다. '뭐 내가 갖고 싶은 것을 궁금해 하는 사람이 몇이나 있겠어'라는 생각이었는데요, 이러한 아마존의 개인정보취급방침에 격한 반발을 보인 것은 지인들 몰래 이런 저런 "포르노 비디오"들을 찜 목록에 추가한 사람들 뿐이 아니었습니다.

빅 데이터의 축적과 함께 가장 위협받게 되는 것은 바로 우리 자신의 개인정보입니다. 그리고 어쩌면 이것이 우리가 시급하게 알아가야 할 "빅 데이터의 충격"일지도 모릅니다. 고객이 좋아하는 것과 싫어하는 것을 알아내는 것은 기업에게 있어서 가장 소중하고도 중요한 정보일 것입니다. 그것이 단 한 사람일 경우에는 그닥 중요하게 보이지 않아도 몇 천, 몇 만, 몇십만의 취향이라면 전혀 이야기가 달라지게 됩니다. 그리고 페이스북이 그토록 우리가 "좋아하는(like)" 것에 집착하는 이유도 바로 여기에 있습니다. 페이스북에게 있어서는 심지어 몇 억 유저의 취향에 대한 것이기 때문입니다.
"'라이프 로그 활용 서비스는 그 양상에 따라서 사생활을 침해하고, 사용자의 불안감 등을 일으킬 수 있다. (...) 따라서 라이프 로그를 취득/보존/이용하는 사업자는 (...) 라이프 로그를 취급하는 데 일정한 배려가 필요하다." (184 페이지)

약 2년 전, 페이스북의 게시물을 근거로 한 이혼 판결이 내려짐으로써 보다 객관적이고도 명확한 "SNS의 사생활 관여"의 예가 공표된 듯 합니다. 또한 SNS의 특성과 그 "위험성"에 대해 충분히 이해하지 못한 유저들의 당황스러운 사건들도 뒤를 이었습니다. 예를 들어 페이스북이나 트위터에 "오늘부터 1주일간 제주도로 여행을 떠난다~ 아이 신나라"라고 올렸다가 예전에 집 위치를 공개한 것을 근거로 빈집털이가 모조리 털어갔다는 이야기도 심심치 않게 들려오고, 미국에서는 심지어 아이의 사진을 페이스북에 공개하였다가 아이가 납치되는 사건까지 벌어졌습니다. 물론 이러한 사건들 역시 심각하지만, 그것보다 심각한 것은 아직도 수 천만, 수 억명의 사람들이 이러한 "무지의 위험성"에 노출되어있다는 사실입니다.
하지만 역으로 "빅 데이터"는 우리의 이런 정보를 분석함으로써 엄청난 경쟁력을 얻습니다. 위의 예처럼 우리가 별로 중요하게 생각하지 않았던 "정보"들을 어떻게 자신들에게 필요한 정보로 만드는지가 그 관건입니다. 사실 페이스북이나 트위터는 계정을 삭제하고 안 하면 그만이지만, 그것이 아니더라도 나의 정보가 "원치 않게" 기업에 도달하는 길은 다양합니다. 어떤 휴대폰을 사용하며 어떤 서비스를 주로 이용하는지, 인터넷 쇼핑몰에서 어떤 상품을 보았으며 어떤 상품을 구매하였는지, 신용카드 내역을 통해 어디서 어떤 음식을 자주 먹었으며 어느 지역에서 주로 활동하는지... 일일히 나열하기에는 끝이 없을 정도로 우리는 살아가면서 우리에 대한 많은 정보를 "스스로" 노출시키고 있습니다. 이것에 동의하지 않아 이 모든 노출에서 벗어나려면 자신의 신분을 버리고 산 속에라도 들어가야 할 상황입니다. 바로 여기에 "빅 데이터"의 무한한 가능성이 있습니다. 그것은 유저가 원하든 원하지 않든 계속하여 쉬지 않고 모든 정보를 수집해나갈 것이기 때문입니다. 그리고 "빅 데이터" 기술이 발전하면 발전할 수록 기업들은 이 엄청난 양의 데이터에서 자신들이 원하는 정보를 훌륭하게 가공하여 수집할 수 있을 것입니다.
떠오르는 핫 잡 (Hot Job), 데이터 과학자
명문대를 나왔어도 대기업에 입사하기가 하늘의 별 따기보다 힘든 요즘, 세계 각국의 대기업들이 눈이 빠지게 찾고 있는 인재가 있다면 믿으시겠습니까? 그야말로 공급이 수요를 따라가지 못하는, 엄청난 경제력을 보장하는 직업 말입니다.
"'현재 우리는 인재를 모집 중이다. 이베이보다 10% 높은 연봉을 지급하겠다.'
2011년 11월 미국 뉴욕에서 개최된 '하둡 월드' 콘퍼런스의 기조연설에서 JP 모건 체이스의 경영 책임자인 래리 파인스미스가 한 말이다. JP 모건 체이스가 다른 회사보다 높은 연봉을 제시해서라도 구하고 싶은 인재란 바로 '하둡'을 사용할 수 있는 엔지니어다." (46 페이지)

10년 단위로 세상이 바뀌어도 너무 바뀌었습니다. 더이상 기성 세대가 우리에게 대단한 조언을 해줄 수 없는 것은 그들이 무능력하거나 경험이 없어서가 아니라, 우리 자체가 너무나도 빨리 진화하는 시대에 살고 있기 때문이 아닐까 싶습니다. 특히 마케팅이나 기업 경영에 있어 10년 전의 방식은 더이상 그대로 적용할 수 없다고 보는 것이 현실적이라 할 수 있습니다. 바로 그런 소용돌이 가운데 전세계적인 기업들이 찾고 있는 새로운 인재가 바로 "데이터 과학자"입니다. 이 생소한 직업을 시로타 씨는 다음과 같이 소개합니다.
"데이터 과학자란 통계 해석, 기계학습, 분산처리 기술 등을 이용해 대량의 데이터로부터 비즈니스에 의미 있는 통찰을 끌어내고 의사결정자에게 알기 쉽게 전달하거나 데이터를 이용한 새로운 서비스를 만들어낼 수 있는 인재다." (239 페이지)
아직까지 그 개념이 생소한만큼 "데이터 과학자"의 수요는 공급양을 훨씬 윗돌고 있다고 합니다. 이미 이러한 IT산업의 흐름을 읽고 몇몇 대학원에 해당 학과가 설립되어 정기적으로 인재를 배출하고 있지만, 그럼에도 불구하고 현재 데이터 과학자의 수요는 공급의 약 2배 이상을 윗돌고 있다고 합니다. 쉽게 말하자면, 그저 제대로 공부를 마치기만 하면 취업이 보장된 "황금 직업"이 바로 "데이터 과학자"라는 말입니다.
이제 어떤 기업도 지금까지의 방법으로는 혁신적인 성장을 하기 어렵게 되었습니다. 세계 경제의 흐름 역시 아무리 수 많은 저명한 경제학자들이 그 미래를 점쳐보고 분석해보아도 점점 한 치 앞도 내다볼 수 없는 미궁으로 빠져들고 있는 것이 오늘의 현실입니다. 세계가 너무 가까워진 만큼 더욱 파악하고 예상하기 어렵게 되었기 때문이죠. 그렇기 때문에 대기업들은 그 어느 때보다 "데이터 과학자"들을 애타게 찾고 있는 것이죠. 미래를 예상하고 앞으로의 방향을 도모하는 정답이 다름아닌 "빅 데이터" 속에 있을 거라는 신념은 "데이터 과학자"들의 가치를 더욱 더 높이고 있습니다. 상상도 할 수 없는 양의 데이터에서 원하는 정보를 가공하는 것. 그것이 어쩌면 미래의 획기적인 - 혹은 유일한 - 기업 경영의 열쇠라는 것에는 이미 많은 전문가들이 암묵적으로 동의하고 있는 상태라고 합니다.

솔직히 말하자면 이 책을 읽으면서 몇 번이고 포기하고 싶은 생각이 들었습니다. 가지고 있는 지식이 너무도 얄팍하여 이해하기 어려운 부분이 많았기 때문이기도 하지만 이 혁신적인 최신 기술의 가능성 범위가 머릿속에서 전혀 그려지지 않았기 때문이기도 했습니다. 그래도 관심을 가지고 이것 저것 찾아보았다고 생각했는데, 이미 이해 가능한 범위에서 벗어났다는 생각에 약간의 좌절(?)도 느껴지더군요.
그럼에도 불구하고 이 책을 꾸준히 끝까지 읽을 수 있었던 것은, 비록 중간에 이해할 수 없는 화성어로 기술에 대해 설명했다고 하더라도, 시로타 씨가 친절하게 "일반적인 민간인"도 이해할 수 있도록 적절한 예와 함께 설명하기 때문에 조금만 인내심을 가지고 읽다 보면 다시 궤도로 진입할 수 있었기 때문입니다. 대부분 이런 서적들은 한번 놓치기 시작하면 영영 다시 돌아오기 힘들 때가 많습니다만, 우리에게 친숙한 기업들의 전략과 빅 데이터 사용의 구체적인 예, 그리고 빅 데이터 분석에 대한 친절한 설명은 굳이 IT 전문가가 아니더라도 이 책을 끝까지 읽을 수 있도록 돕습니다. 또한 기술에 대해 이해가 부족하더라도 우리의 생활과 직접 연결되는 개인정보 혹은 사생활 문제에 대한 언급 역시 끝까지 관심을 가지고 이 책을 읽을 수 있는 중요한 이유입니다. 상세한 내용을 다루고 있지만 결코 복잡하지만은 않은 것이 "빅 데이터의 충격"의 가장 큰 장점이라고 할 수 있겠습니다.
이 책을 읽으려는 사람들의 의도는 다양할 것 같습니다. 단지 뒤쳐지지 않기 위해서, 특별한 관심이 있어서, 혁신적인 비즈니스 전략을 위해서 아니면 IT 종사자이므로 혹은 순수한 궁금증으로 이 책을 펼치고 읽기 시작할 것입니다. 그리고 한가지 확신하는 것은, 이 책이 이 모든 사람들에게 그야말로 "핫 키워드"인 "빅 데이터"에 관하여 정말 친절하고 유익한 정보를 전달하리라는 것입니다. 비록 그 이해도와 활용도에 있어서는 읽는 사람에 따라 확연히 다를지라도 분명 입문자부터 고급사용자까지 흥미롭게 읽어나갈 수 있는 책이 될 것입니다.