[알라딘서재]빅데이터 승리의 과학

빅데이터 승리의 과학ｌ마이리뷰

책력거99 () l 2013-05-05 13:47

https://blog.aladin.co.kr/773278144/6349409

빅데이터, 승리의 과학 - 빅데이터는 당신이 무엇을 선택할지 알고 있다 고한석 지음 / 이지스퍼블리싱 / 2013년 4월 평점 : 품절

책 제목이 인상적이다. " 빅 데이터 승리의 과학 " - 제목처럼 오바마 켐프는 2012년 대선에 이를 적극 활용한 전략으로 공화당 롬니 후보를 누르고 재선에 성공 하였다.

결론적으로 보자면 전통적인 기법의 선거전과 현대전의 방식 차이라고도 느껴 질 수 있는 미국 대선에서 어떤 방식으로 누구에게 구체적으로 선거에 대해 이야기하고 논리적으로 설명 하고 동의와 아울러 후원까지도 얻어 내는 이모든 일들을 it 테크널러지팀의 전략 하여 움직여 성과를 거두었다는 점에서 시사 하는 바가 크다... 만약 이러한 대선이 약 20년전 쯤 부시 행정부 시대에 이뤄 졌다면 이야기는 많이 달라 졌을 것이다.. 전화화 팩스 , 간단한 화상 커뮤니케이션 정도가 아니였을가 생각 해본다..

저자에 대한 간단한 약력이다.

------------------------------------------------------------------------------------------------------------------

저자 고한석은 서울대 중문과를 졸업하고, 하버드대학 케네디스쿨에서 IT정책으로 석사학위를 받았다. 95년 솔빛조선미디어 멀티미디어 제직팀장으로 일하다 IT 기술과 정보화 사회에 대한 관심이 커지면서 직장을 그만두고 유학길에 올랐다. 그후 하버드대학 케네디스쿨에서 석사학위를 받은 후 SK에 입사하여 SK China IT/인터넷 사업개발팀장으로 중국에서 4년 동안 일했다. 이때 외국인으로는 최초로 중국 동창회 커뮤니티 포털인 ViaFriend.com을 오픈하여 가입자를 1,000만 명까지 늘리기도 했다. 이후 삼성네트웍스의 글로벌사업추진팀장으로 5개 해외사무소를 총괄하는 일을 하던 중 젊은 시절 가졌던 꿈인 사회변화에 기여하는 삶을 살고자 당시 열린우리당 정책연구원에 정책기획 연구원으로 들어갔다. 그후 당의 정세분석국장으로 여론조사 데이터를 관리하였다. 정책분야에 대한 관심을 구체화하고 싶어 (주)사회디자인연구소를 만들어 초대 소장을 맡아 활동하기도 하였다. 현재는 IT에 기반을 둔 사회혁신과 데이터 마이닝에 관심을 가지고 집필활동과 강연을 하고 있다.

------------------------------------------------------------------------------------------------------------------

2000 년대를 넘어서면서 수맣은 IT 기업들이 생겨나고 파산 하기를 반복 하면서 나름대로의 평행점들을 찾아 가고 있고 그러한 배그라운드 에서 탄생한 첨단 커뮤니티 및 소셜 네트웍 회사들이 우리가 알고 있는 페이스북이나 트위터 , 링크드인 ,그리고 한국의 경우 카카오 톡이다.. 우리는 생활하면서 의식 하든 의식 하지 않든 수맣은 데이타의 홍수에 둘러 쌓여 있다... 출근길의 신호등에서부터 직장의 카드 리더 , 식사 할때의 신용카드 정보 ,,, SNS 를 하는 사람이라면 포스퀘어에 LBS ( 위치 기반 서비스를 ) 이용한 공공 커뮤니티를 동작 시키고 ,, 사진을 좋아하는 사람이면 플리커는 누구나 안다...

이곳 트랜드 헌터도 일종의 플랫폼 카페라고 생각 한다면 여기에서 생겨나는 데이터도 수맣은 사람들에 의해서 생산 , 재사용, 가공 되어 지고 있을 것이다..

미국 2012년 대선의 결정적인 승리의 요인이 여러가지 있겠지만 그중에서도 정보의 차별화 다른 말로 " 클라우딩 컴퓨팅 기술을 이용한 빅테이타의 마이크로 타킷팅의 승리 " 라고 보여 지는 일면들을 속속들이 이책에서는 증거와 함께 통계적인 자료치로 제공하고 있다...

이전 선거에서는 막연히 좋다. 좋지 않다라는 선거 영향들이 후보자의 인종적 / 출신지에 따른 호/오 구별도 있지만 대선이란 거래한 기치 아래에서는 공약사항에 내건 조건들에 따라 어느 기업은 반사 이익을 보기도 하고 어느 개인은 손해를 보기도 한다고 생각한다... 정책이나 이러한 캠프에서 자신들의 색갈을 가장 잘 표현 해주고 그 것이 공공의 선이 되어 결국 개개인에게 선거의 승리가 자신에게도 이익에 부합 한다면 그 사람을 지지 할 것이다..

매우 분명헤 보이는 합리적인 방안 이지만 이의 실행 방법에 잇어서 공화당과 민주당은 출발 선상에서부터 달랐다..

물론 오바바 캠프는 재선을 위한 준비를 이미 4년 전부터 시작 했고 민주당은 2012년 5월 최종 대통령 후보자가 선출된 시점 부터 진용을 갖추기 시작 하여 준비 시점이 달랐지만 더욱 다른 것은 두 양당의 IT 데이타기술을 이용한 개개인 국민들에 대한 마케팅 접근 방식의 차이다..

특히나 롬니후보측은 효율화를 중시 한다는 경제 원칙에 따라 대부분의 모든 데이터 설계나 운영까지도 아웃 소싱을 한다. 반면 오바마 켐프는 핵심인력은 물론 S/W , HW 애 대한 구성 조차도 내부적으로 해결하고 즉시성을 가지며, 지진이나 천재 지변에 대비한 가상 공간을 아마존 서버에 두기도 하는 클라우딩 기반의 전략을 취한다.. 인적 구성에 있엇서도 약 10배 정도의 차이를 나타 내는데 공화당 측은 약 100여명 이내의 사람들로 대선 기간중 모든 데이타 처리와 아웃 소싱 업체를 관리 하는 한편 ,, 민주당 측은 약 900 여명의 방대한 인원 을 거느리기는 하지만 유기적인 커뮤니케이션으로 빠른 복구와 대응을 할 수 있었던 강점이 있었다...

일단 다시 미국 대선이라는 선거 구도로 돌아가 보자.. 일단 ,, 미 합중국인구는 이민자 포함 약 3억1천만명 정도 된다 ( 2012년 기준 ) 이중 유효 투표자수 포함 분석 가능한 집단을 약 2억명 정도로 잡았다.. 각 개인의 데이타 또한 수백개에서 ~ 수천개에 달하는 의미없는 신호들 -예를 들면 슈퍼에서의 물건 구입명세 카드 데이타, 어느 곳을 방문한 흔적 ( 호텔 체크인등) , 차량 구매 내역서 , 렌탈카 이용 , 의료비 지출 등 ,, 일상 생활에서 비 정형화된 모든 데이타들을 조합 가공 하여 의미 있는 숫자의 조합으로 만들어서 유효한 범위내의 이메일 광고를 내보내며 선거 모금을 요청 하고 좀더 적극 적인 지지자인 경우 자원 봉사자 참가를 유도 한다 .....

이러한 각기 다른 레벨의 사람들과 정치적인 성향을 어떤 방식으로 알아 낼 수 있었을까 ? 그 해 답은 아래 개요를 소개 하는 인터넷 플렛폼 기반위에 작동 되는 빅데이터에 있다고 할 수 있다..

아래는 위키 백과의 빅데이타의 개요 설명 이다.. ------

------------------------------------------------------------------------

출현 배경

기존 소셜 네트워크 서비스로 대표되는 소셜 미디어의 성장과, 최근 스마트 폰으로 대변되는 모바일 장치의 확산이 결합되어, 일상 속에서 다양한 종류의 대규모 데이터가 급속히 생성, 유통, 저장되고 있다. 또한 RFID와 같이 정보를 감지하는 센서 장비의 이용 확대와 이러한 정보를 수집하는 클라우드 컴퓨팅 기술의 확산은, 물류의 이동 및 재고의 변화뿐만이 아닌 개별 소비자들의 개인정보 및 소비행태와 같은 모든 일상에 대한 디지털 기록을 가능케 하고 있다. 기업 및 사회는 이러한 수집된 데이터를 기반으로 예측 분석을 하기 위하여, 다양한 종류의 대규모 데이터 처리, 분석 및 활용 기술을 필요로 하고 있다. 대량의 다양한 데이터 생산 기술의 진보와, 이에 필요한 데이터 저장·관리·분석 기술의 발전 속에서 빅 데이터가 출현하게 된다.

특징

빅 데이터는 TB(테라바이트)단위의 데이터량으로 정의되거나 데이터 수집 및 분석에 장기적인 시간을 요하므로, 데이터 양의 증가를 그 특징으로 하는 것이 명확해 보인다. 그러나 단순한 데이터 양의 증가를 넘어서서, 빅 데이터는 크게 데이터 양(volume), 데이터 속도(velocity), 그리고 데이터 다양성(variety) 등 세 가지 요소의 복합적인 변화를 그 특징으로 한다. ^[5]

데이터 양(volume)

단순 저장되는 물리적 데이터 양의 증가 뿐만이 아닌, 이를 분석 및 처리하는 데 어려움이 따르는 네트워크 데이터의 급속한 증가는 빅데이터의 가장 기본적인 특징이다.

데이터 속도(velocity)

빅 데이터는 데이터의 실시간 처리 및 장기적 접근을 요구한다. 데이터 생산 및 유통, 수집 및 분석 속도의 증가와 이에 대한 실시간 처리 및, 장기간에 걸쳐 데이터를 수집·분석 하는 장기적 접근이 빅데이터의 속도적 특성이다.

데이터 다양성(variety)

기존 예측 분석에서 데이터 분석은, 기업 내부에서 발생하는 운영 데이터인 ERP(전사적 자원 관리), SCM(공급망 관리), MES(Manufacturing execution system), CRM(고객 관계 관리) 등의 시스템에 저장되어 있으며, 잘 정제되어 있고, 의미도 명확한 RDBMS(관계형 데이터베이스) 기반의 정형 데이터를 통해 이뤄졌다.^[6] 최근 빅 데이터를 이용한 데이터 분석은, 고정된 시스템에 저장되어 있지 않은 XML, HTML 등과 같이 데이터베이스 스키마를 포함하는 반정형 데이터를 이용한 분석뿐만이 아닌, 사진•오디오•비디오 형식의 소셜 미디어 데이터나 로그파일(Database log) 같이 비정형 데이터도 처리할 수 있는 능력을 요구한다. 즉 빅 데이터의 성장이란 단순히 데이터의 양이 증가하는 것을 넘어서서, 다양한 형태의 데이터 양이 증가하는 것을 의미하는 것이다.

빅 데이터 분석 기법

상기 특징을 가진 빅 데이터의 분석·활용을 위한 빅 데이터 처리 기법은 크게 분석 기술, 표현 기술로 나뉜다.

빅 데이터 분석 기술

대부분의 빅 데이터 분석하는 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다.^[7] 특히 최근 소셜 미디어등 비정형 데이터의 증가로 인해, 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목을 받고 있다.^[8]

Text Mining(Text mining) : 텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.
평판 분석 (Opinion mining) : 오피니언 마이닝은 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 기술이다.
소셜 네트워크 분석 (Social network analysis) : 소셜 네트워크 분석은 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하는 기술이다.
군집 분석 (Cluster Analysis) : 군집 분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군을 발굴하는데 사용된다.

대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 하둡이 있으며, 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다. ^[8]

빅 데이터 표현 기술

빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로서, R (프로그래밍 언어)이 대표적이다.^[8]

활용사례 및 의의

빅 데이터 기술의 발전은, 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하며, 개인화된 현대 사회 구성원들에게 있어서 맞춤형 정보를 제공·관리·분석 가능케 하며, 과거에는 불가능 했던 기술을 진일보 시킨다. 이에 빅 데이터는 정치·사회·경제·문화·과학기술과 같은 전 영역에 걸쳐 그 중요성이 부각되고 있다.

----------------------------------------------------------------------------------------------------------------

2012년 대선 오바바 캠페인 팀은 이러한 기술을 적극 활용하였고 각개 각층의 유권차 층 분석에 IT 의 기술을 총동원 한다..

약 2억에 가까운 유권자 통합 데이터 망이 이시기 이전에 구축을 완료 한다.

또한 각지에서 몰려드는 수많은 자원 봉사자들 ,그들을 통합하고 일일 성과 지표를 측정 하기 위해서는 실시간적인 양방향 응답 솔루션이 필요 하였다... 그래서 탄생한 것이 페이스북과 기능 은 유사 하지만 데이퍼 지표를 한눈에 알수 잇는 " 내셔날 필드" 라는 소셜 커뮤니케이션 프로그램이다... 이를 통해서 미국 전지역의 유권자 동향과 선거 운동원들의 일일 할당량과 자신이 컨텍 해야 하는 대상에 대해서도 마이크로 타깃팅이 가능 해진 것이다.. 더 나아가 유권자 성향을 분석해 낸것을 토대로 " 대쉬보드 " 가이드 라인을 통해 92세의 할아버지 자원 봉사자도 병원이나 집에서도 전화 캠페인을 할수 있었다.. 즉 성향에 따른 #1 ~ 10 까지를 예시 하고 그것에 맞는 유권자에 해당하는 질문을 하고 동의를 구하거나 선거에 동참 할것을 촉구 하여 중간의 그레이 지역을 하나 하나 제거해 나간 것이다...

선거 모금에 있어서도 Votebuilder.com 을 통한 유권자 성향을 토대로한 마이크로 타깃을 정해 소득 수준별 , 사는지역별 개개인이 감당할 만한 소소한 모금액이라도 유도 할 수가 있고 이에 동원 되는 이메일 문구또한 A/B 테스를 통해 가장 매력을 끌만한 소재난 제목으로 정해지게 된다 이를 통한 모금액의 증가액이 그렇지 않을 때보다 무려 700억원 이상의 차이를 나타 내였다..

당시 이러한 데이터 처리나 가공을 위한 실리콘 밸리의 최고의 인재를 영업한 것이 오바마 캠프의 승리를 기초를 닦았음은 중요한 요인중 하나에 해당 한다고 할수 있다... 특히나 비숫한 데이타 베이스를 가지고 있는 공화당의 경우 , 연령대나 정치 사안에 대한 차이에 대한 무작위성 이메일이나 우편물을 발송 하는것에 반해 ( 예를 들면 , 이제 막 18세가 된 유권자 여자의 경우 노령 연금이나 이와 관련된 세금 혜택에 대한 이슈 나 광산 개발에 대한 에너지 태책등 ) ,, 민주당 it 켐프에서는 보다 구체적이고 실험적인 이메일링과 팬클럽 사이트들이 기존 소셜 네트웍과 연동되어 적재 적소의 여러가지 성향의 사람들에게 맞춤식으로 제공 되었다는 사실이다...

아이러니 한 결과중 하나는 진보성향이라고 표현 되는 민주당에서는 이번 선거에서의 IT 전략은 정반대의 보수적인 절차및 의사결정을 하였다는 점이다.. 오픈식 커뮤니케이션은 맞지만 조직의 방대함이라던가 트랜드에 맞춘 ( 흔히들 규모를 작게 가져가고 핵심적인 부분만을 운영하는 아웃소싱전략 ) 이 이번 만큼은 오히려 독이 되는 경우였다.. ( 아웃소싱으로 비용은 줄일 수 있었지만 공화당내의 의견 조율이나 집행 부서의 효율적인 행동 전달이 오히려 지연 되고 심지어 서버 다운 사태에는 내부 인력이 별로 없어서 외부 도움을 ? 기다려야만 하는 상황이었다...)

그래서 만고 불변의 진리는 없다는 말을 실감 하기는 하지만 두 양대 진영의 가장 큰 차이는 플랫폼 기반이 어디에서 차이가 벌어졌는냐는 부분이다... 기존의 전화 . 우편 , TV 등 영상 메체를 이용하는 측면에서는 동일 하다고 하겠지만 ,, 개개인을 파고 드는 마이크로 타깃팅 전략은 민주당이 한수 위위 였다는 점은 인정 하여야 하겠다... 이를 활용할 수 있었던 근간이 된 것이 다름 아닌 인터냇 플렛폼을 기반으로한 빅데이터의 수집과 마이닝이 아니었을까 생각 해본다...

세상이 복잡 다단 해지면서 더욱 많은 알수 없는 시그널과 대이터의 홍수 속에 살고 있지만 이를 필터링을 거쳐서 가공 하면

자신도 모르는 어떤한 형태의 행동양식이 표출 될 수도 있다..이를 기반으로 한 서비스 비지니스는 점차 생겨 나고 있고

오늘도 그러한 업체들이 계속 스타트업을 하지 않을까 전망 해본다...

2013/ 5//5 어린이날 을 맞이하여 빅데이터란 우리에게 무엇으로 다가올까 ,,,,생각해 봅니다..

빅데이터승리의과학

댓글(0) 먼댓글(0) 좋아요(0)

ｌ 공유하기 ｌ 북마크하기

찜하기 ｌ

먼댓글 주소 : https://blog.aladin.co.kr/trackback/773278144/6349409

주소복사 ㅣ

책력거99님의 서재

리스트

마이리뷰

마이페이퍼

방명록

서재 태그

빅데이터 승리의 과학ｌ마이리뷰

책력거99 () l 2013-05-05 13:47

특징

데이터 양(volume)

데이터 속도(velocity)

데이터 다양성(variety)

빅 데이터 분석 기법

빅 데이터 분석 기술

빅 데이터 표현 기술

활용사례 및 의의

공유하기

서재지수 : 51694점

오늘의 마이리스트

최근 댓글

먼댓글 (트랙백)