2012년은 우리나라와 미국 모두 중요한 선거가 있는 해다. 기존의 선거와 차이가 있다면 데이터를 기반으로 한 선거가 더욱 활발하게 이뤄질 것이라는 점이다. 선거는 후보자와 유권자 사이의 상호작용으로, 서로의 마음을 얻어야 하는 이 과정에서 데이터의 역할은 날로 중요해지고 있다. 오는 4월 11일, 곧 다가올 19대 국회의원선거를 시작으로 11월 미국 대통령 선거, 12월 우리나라 대통령 선거 과정에서 나타나게 될 다양한 데이터 분석·시각화 사례는 올해 선거의 중요한 관전 포인트가 될 것이다.
“우리는 통계학자, 예측 모델 전문가, 데이터 마이닝¹⁾ 전문가, 수학자, 소프트웨어 개발자, 일반 분석가와 기획자로 구성된 다분야 융합팀입니다. 우리와 함께 일할 예측 모델 전문가와 데이터 마이닝 과학자, 그리고 분석가를 찾고 있습니다.”
이것은 과학 기술 분야 연구소의 구인 공고가 아니다. 오는 2012년 11월에 있을 미국 대통령 선거에서 재선을 노리며 준비하고 있는 오바마 대통령의 선거본부가 2011년 7월 내놓은 구인 공고의 일부다. 오바마 대통령의 선거본부에서는 대체 무슨 일을 하기에 선거와 크게 관련 없어 보이는 이런 생소한 전문가들을 찾는 것일까?
현재 시카고에 차려진 오바마 대통령 선거본부에서는 완전히 공개되지 않은 두 가지 프로젝트를 진행 중이다. 프로젝트 이름이 재밌다. 각각 ‘드림캐쳐(dreamcatcher)’와 ‘외뿔고래(Narwhal)’다. ‘드림캐쳐’는 현재 오바마 정부의 정책이 유권자 자신의 삶에 어떤 영향을 미쳤는지 자유롭게 기술한 텍스트 데이터를 모으고 분석하는 프로젝트다. 유권자들이 다양한 방식으로 기술한 이야기는 유권자 한 명 당 최소한 6만 개 이상의 단어로 구성된 텍스트이며, 오바마 선거본부에서는 현재 수백만 명 분량의 데이터를 가지고 있는 것으로 알려졌다. 오바마 선거본부 데이터팀에서는 이러한 방대한 분량의 텍스트 데이터를 모아 유권자의 기대와 소망을 데이터 마이닝 기술을 이용해 분석하고, 이를 유권자 개개인에게 최적화한 새로운 선거 전략을 반영하는 작업을 하고 있다.
‘외뿔고래’는 유권자의 행동 특성을 분석하는 프로젝트다. 유권자의 온라인 활동, 과거의 투표 행동, 선거 자금 기부 행태, 선거 운동 자원봉사 패턴 데이터 등을 유기적으로 분석해 유권자들의 정보를 입체적으로 구성하는 작업을 수행하고 있다. 앞서 소개한 생소한 구인 공고가 필요했던 이유가 여기에 있다. 오바마 선거본부는 올해 재선을 노리며 이처럼 데이터 기반의 새로운 선거 전략을 철저하게 준비하고 있던 것이다. 이러한 데이터 기반 선거 운동을 위해 공식 직함이 ‘수석 과학자’인 레이드 가니(Rayid Ghani)가 이 모든 작업을 총괄하고 있다.
데이터 기반 선거는 비단 선거를 준비하는 후보자 진영에만 국한된 주제는 아니다. 후보를 지지하고 표를 행사하는 유권자도 데이터 기반 선거에 주인공으로 참여하고 있다. Politilines 서비스(http://politilines.periscopic.com)가 바로 대표적인 예다.
Politilines은 CNN 방송 자료와 UC 산타바바라 대학교의 미 대통령 선거 관련 데이터베이스인 ‘The American Presidency Project’의 데이터를 기반으로, 2011년부터 2012년 2월까지 공화당의 대선 후보를 결정하는 경선 과정에 참여한 후보들의 토론 주제와 키워드를 쉽게 비교·분석할 수 있는 서비스다. 이 서비스는 근 2년간 여러 후보가 토론 과정에서 말한 모든 문장을 일정한 알고리즘으로 분석해 후보와 주요 키워드 간의 상관관계가 명확히 드러나는 데이터 형태로 가공하고 조직화했다. 단순히 텍스트 형식의 테이터로 제공하는 것이 아니라, 복잡한 데이터를 더 직관적이고 효율적으로 탐색할 수 있도록 인터랙티브 형태로 시각화했다. 이를 통해 유권자들은 언제, 어떤 후보가, 어떤 주제를 놓고, 어떤 단어를 중심으로 서로 토론을 벌이고 주장을 펼쳐 나갔는지 쉽게 알 수 있다.
우리나라도 2012년 올해 19대 국회의원선거와 18대 대통령선거를 앞두고 데이터를 기반으로 한 선거 흐름이 다양하게 나타나고 있다. 데이터 기반 선거의 핵심인 과거 선거 데이터 분석 과정에서도 이러한 움직임이 두드러진다. 데이터 시각화와 데이터 저널리즘 연구를 수행하는 연합뉴스 미디어랩에서 제작한 17·18대 국회의원선거 인터랙티브 데이터 지도(http://www.yonhapnews.co.kr/medialabs/elec2012/map_poll.html)가 그 대표적인 예 중 하나다.
[그림] 17·18대 국회의원선거 관련 대용량 데이터를 인터랙티브 형태로 시각화한 데이터 지도. 사용자는 다양한 형태의 데이터를 위치공간 데이터와 상호 연동해 빠르고 직관적으로 탐색하고 원하는 정보를 얻을 수 있다. 자료 제공 : 연합뉴스 미디어랩 이 데이터 지도는 전국 1만 3,167곳(17대)과 1만 3,246곳(18대)의 투표소에서 2,158만 1,550명(17대), 1,741만 5,666명(18대)의 투표자가 만들어낸 선거 데이터를 지리정보시스템(GIS)과 연결해 실제 지도상에 입체적으로 시각화한 것이다.
이를 통해 이용자는 다양한 조건을 조합해 17·18대 국회의원선거를 다각도로 조망할 수 있으며 다가오는 국회의원선거와 대통령선거의 기반 자료로 이용할 수 있다. 인터랙티브 데이터 시각화가 아니었다면 한 번에 대용량 데이터를 조망하고 분석하는 일은 불가능했을 것이다.
SNS와 모바일 환경을 기반으로 한 선거 관련 데이터도 그 어느 해 보다 많이 쏟아져 나오고 있다. 때문에 이를 이용한 데이터 기반 선거 정보 서비스도 주요 언론사와 각 포털 사이트를 중심으로 이뤄지고 있다.
특히 트위터나 페이스북, 미투데이와 같은 소셜미디어 상의 데이터를 대상으로 이뤄지는 사회관계망 분석(social network analysis)과 시각화는 이번 국회의원선거와 대통령선거를 앞두고 중요한 선거 데이터 분석·시각화 사례로 주목받을 전망이다. 데이터 기반의 새로운 선거 시대가 시작된 것이다.
1) 데이터 마이닝(data mining): 대규모 데이터를 체계적으로 분석해 데이터 안에 숨겨져 있는 통계적 규칙이나 패턴을 찾아내는 것을 말한다. 이러한 규칙과 패턴을 바탕으로 과거에는 발견하지 못했던 데이터 패턴과 특징을 찾을 수 있으며, 이를 바탕으로 새로운 의사 결정 전략을 수립할 수 있다.
글 : 한운희 연합뉴스 미디어랩 데이터 분석·시각화 연구원
출처 : 과학향기