빅 데이터가 만드는 세상 - 데이터는 알고 있다
빅토르 마이어 쇤버거 & 케네스 쿠키어 지음, 이지연 옮김 / 21세기북스 / 2013년 5월
평점 :
장바구니담기


꽤 예전에 <이코노미스트>에 데이터 마이닝에 대한 기사에 영화 <마이너러티 리포트>가 언급되었다. (기사를 스크랩했는데 한번 찾아봐야겠다) 이 영화가 빅데이터를 이용한 예측으로 미래의 범죄자를 잡는 줄 알았다. 영화를 보니 예지자들에 의해 범행 전에 범인을 잡는 내용이었다. 뭐야, 도대체 왜 이 영화를 인용한 거지? 이유는 어떤 방법이든 미래를 예측하는 것에 대한 부작용이 있을 것이라는 것이 경고 아니었을까. 이 책은 빅 데이터의 밝은 면만을 이야기 하지 않는다. 빅데이터가 이슈가 되면서 많은 관련 서적이 나와 있지만 솔직히 볼 만한 책은 손에 꼽는다. 빅데이터만 붙이고 엉뚱한 내용을 이야기하는 경우도 가끔 보여서 꼭 서점에 가서 내용을 확인하고 책을 산다. 그런 점에서 <빅 데이터가 만드는 세상>은 기존에 나온 책들의 내용은 거의 포함하면서 새로운 정보도 많이 주고 생각할 거리도 던져준다. 나는 많은 책에서 이 책을 언급해서 읽어보게 되었다.
빅데이터를 수집해서 특정 알고리즘만 적용하면 뚝딱 결과가 나오리라고 생각하면 오산이다. ​세상일이 그리 쉽지만은 않다. 데이터 과학자들이 실력을 겨루는 빅 데이터 프로젝트를 위한 온라인 플랫폼 '캐글'에서 우승의 관건은 데이터 처리력이 아니라 전적으로 창조성 유무”다. 데이터 과학자는 통계 전문가, 소프트웨어 프로그래머, 인포그래픽 디자이너, 스토리텔러를 합쳐놓은 직업이라고 말하는 이유다. 실제로 우승을 하는 사람들은 통계학자보다는 물리학·전기공학·천문학 등 타 분야 전문가로서 독학으로 데이터 과학에 입문한 이들이 대부분이라고 한다. 이 말은 반대로 미래에는 모든 분야의 사람들이 빅 데이터를 다룰 수 있어야 한다는 말이 된다.  (관련 기사 링크 : http://sunday.joins.com/article/view.asp?aid=33816 )
​영화 <머니볼>도 좋은 예로 등장한다. 야구에 분석과 새로운 지표를 적용해 오클랜드 애슬레틱스가 승리 팀이 된다는 이야기로 인간의 판단 능력에 있는 결함을 완벽하게 묘사하고 있다. 수백만 달러가 걸린 선수 계약을 결정하면서 객관적 척도는 없이 직감에 의존해 온 관행이 데이터 앞에서 무너진다.
​구글, 아마존, 트위터, 페이스북, 그리고 이동통신 사업자들은 우리에 대해 우리보다 더 잘 알고 있을지도 모른다. 우리에게 편의를 제공할지도 모르지만 썩 기분이 유쾌하지도 않다. 데이터가 권력이 되고 개인에 대한 분석이 우리도 모르는 사이에 이루어지고 마케팅에 이용된다고 생각하면 기분이 묘해진다.
​ 빅 데이터의 가치 사슬에서 가장 큰 가치를 손에 쥐는 사람은 누구일까? 현재까지의 대답은 빅 데이터 사고방식을 가진 사람, 즉 혁신적 아이디어를 가진 쪽인 것 같다고 저자들은 말한다. 사실 공개된 데이터를 수집하는 일은 그리 어렵지 않다. 하지만 문제는 빅 데이터를 어떻게 분석할 것인가 하는 방법과 아이디어다. 똑같이 빅 데이터를 보유한다해도 활용할 수 있는 능력에 따라 결과는 완전히 달라지게 된다. 공공데이터에 대한 공개도 꼭 필요하다. 한국도 공공데이터에 대한 개방이 이루어지고 있다. 이런 데이터를 잘 활용해 훌륭한 서비스와 연결시킨다면 좋은 사업아이디어가 될 것이다. 아직도 일반인들은 빅데이터라는 말이 썩 피부에 와닿지 않지만 많은 기업들이 보이지 않는 곳에서 빅 데이터 활용을 고민하고 있다. 빅데이터를 활용하는 것은 중요하지만 너무 의존하거나 맹신하는 것도 위험한 일이다. 이 책이 돋보이는 이유는 무조건 빅데이터의 장미빛 미래만을 말하기보다는 리스크에 대해서도 철저히 언급하고 있기 때문이다. 빅데이터가 만드는 세상에 우리는 이미 살고 있다. 분명한 것은 모든 분야에 빅데이터를 적용하는 것이 일상이 되는 날이 반드시 온다는 점이다. 아직은 시작이고 불확실한 것도 많다. 그래서 더 재미있는 분야가 빅데이터다.
< 인상깊은 대목 >
P.019 빅 데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이다. 그리고 이 과정에서 시장 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
P.027 빅 데이터는 엄청난 양의 데이터에 수학을 적용해 확률을 추론하려는 노력이다.
P.031 빅 데이터에서 중요한 것은 결론이지 이유가 아니다. 어떤 현상의 원인을 항상 알아야 할 필요는 없다. 우리는 데이터 스스로 진실을 드러내게 하면 된다.
P.042 찾기 힘든 인과성에 매달리는 대신 상관성을 존중하는 것
P.047 통계학자들은 샘플링의 정확성을 극적으로 향상시키는 방법으로 샘플의 크기를 늘리는 것이 아니라 무작위로 샘플을 추출하는 것임을 밝혀냈다. 실제로 깜짝 놀랄 이야기지만 무작위로 추출한 1,100명의 사람에게 '예, 아니오'식 질문을 할 경우 그 결과는 놀라울 만큼 전체 인구를 대표한다.
P.051 애플의 전설적 경영자 스티브 잡스는 암과의 투쟁에서 완전히 다른 접근법을 취했다.  그는 세계에서 몇 번째로 암세포의 DNA뿐만 아니라 자신의 DNA 전체를 분석한 사람이 됐다. .. 그 방법(일부가 아닌 전체 데이터를 분석하는 것)은 잡스에게 몇 년의 인생을 더 선물했다.
P.071 알고리즘이 좋은 것보다 데이터가 많은 편이 훨씬 더 효과적이라는 사실이 여실히 증명된 사례는 자연어 처리 부문이다. 자연어 처리란 우리가 일상생활에서 사용하는 단어들을 컴퓨터가 어떻게 분석해야 하는지 연구하는 분야다,
P.076 구글 번역의 시스템이 잘 작동하는 이유는 알고리즘이 뛰어나서가 아니다. 그것은 마이크로소프트의 방코나 브릴 같은 역할을 한 구글 번역의 개발자들이 단순히 고품질이 아닌 더 많은 데이터를 사용했기 때문이다.
P.078 빅 데이터 세상으로 옮겨가려면 정밀성의 장점에 관한 생각을 바꿔야 한다. ... 정밀성에 대한 집착은 정보가 궁핍했던 아날로그 시대의 발명품이다.
P.086 전통적인 데이터베이스 엔진에서는 데이터가 고도로 구조화되고 정확해야 했다. ... 관계형 데이터베이스라고 하는 기존의 데이터베이스들은 데이터가 희귀하고 조심스럽게 정리될 수 있는 세상에 맞춰 설계된 것이었다. .. 하지만 데이터 저장과 분석에 관한 이런 식의 관점은 점점 현실과 충돌하고 있다.
P.100 데이터에서 나온 자료들이 훨씬 더 많은 판매고를 올렸다. 컴퓨터는 어니스트 헤밍웨이의 작품을 읽은 고객이 왜 F.스콧 피츠제럴드의 작품도 구매하는지 그 이유를 이해하지는 못했을 것이다. ... 현재 아마존 매출의 3분의 1은 추천 목록과 개인 맞춤 시스템에서 나온다고 한다.
P.132 2008년  <와이어드>의 편집장 크리스 앤더슨은 '데이터 홍수로 과학적 방법은 구식이 됐다'고 큰소리쳤다. ... 그 근거로 앤더슨은 양자물리학이 이제 거의 순전히 이론적인 분야가 되어버린 점을 꼽았다.
P.135 빅 데이터가 '이론의 종말'을 가져오지 않을지는 몰라도 우리가 세상을 이해하는 방법을 근본적으로 바꿔놓을 것이라는 사실만은 분명하다.
P.145 '바다의 길잡이'로 불리는 모리 중령은 빅 데이터의 핵심 교의를 처음으로 자각했던 사람 중 한 명이었다. 엄청난 양의 데이터에는 적은 양의 데이터에서는 볼 수 없는 특별한 가치가 있다는 사실 말이다.
P.156 구글은 자신들이 입수할 수 있는 (그리고 저작권법이 허용하는 범위의) 모든 책의 모든 페이지를 전 세계 누구나가 인터넷을 통해 공짜로 검색하고 접근할 수 있게 하겠다고 했다.
P.157 구글의 엔그램 뷰어는 구글 북스에 있는 전체 인덱스를 데이터 소스로 사용해서 시기에 따른 단어나 문구의 이용 현황을 그래프로 만들어준다.
P.176 지오(Zeo)라는 회사는 이미 수면 활동에 관한 세계에서 가장 큰 데이터베이스를 구축해 남성과 여성이 경험하는 렘 수면의 양이 다르다는 사실을 밝혀냈다.
P.178 사물 간 인터넷(모든 사룸에 마이크로칩, 센서, 통신 모듈을 내장하는 것) 에 열광하는 것은 네트워킹에 대한 부분도 있지만 우리를 둘러싼 모든 것을 데이터화할 수 있다는 사실에 흥분하는 것이기도 하다.
P.189 아마존이 고객이 구매한 책뿐만 아니라 그저 구경만 한 웹페이지도 기록하는 것은 맞춤형 추천을 제공할 때 그 데이터를 사용할 것임을 알기 때문이다.
P.193 빅 데이터 시대의 도래와 함께 우리는 이제야 데이터의 숨은 가치를 깨울 수 있는 도구와 창의력, 그리고 사고방식을 갖게 됐다.
P198 에어세이지나 센스 네트웍스 같은 지리 위치 사업자들이 금요일 밤에 사람들은 어디에 모이는지, 도로에 차들이 얼마나 천천히 움직이는지 등의 정보를 판매할 수 있는 것은 이 때문이다. 이렇게 정보가 집결되면 부동산의 가치를 평가할 수도 있고 게시판 광고의 가격을 정할 수도 있다.
P.212 반스 앤 노블은 자사의 누크 단말기에서 나온 데이터를 분석해 사람들이 긴 논픽션 책은 중간에서 그만두는 경향이 있다는 사실을 밝혀냈다.
P.213 정보가 보유한 데이터의 가치는 아직 잠들어 있고 이것을 깨우기 위해서는 혁신적 분석 작업이 필요하다.  ... 이런 생각에서 전 세계적으로 '정부 데이터 개방' 운동이 수없이 일어났다.  ... 데이터를 기계가 읽을 수 있는 형식으로 표준화해서 쉽게 처리할 수 있게 해야 한다. 그렇지 않으면 무늬만 공공의 것이 되기 때문이다.
P.230 오늘날 데이터는 넘치고 기술은 귀하다. 그래서 몇 년 새 '데이터 과학자'라는 새로운 직업도 나타났다. 데이터 과학자는 통계 전문가, 소프트웨어 프로그래머, 인포그래픽 디자이너, 스토리텔러를 합쳐놓은 직업이다. ... 매킨지 글로벌 연구소는 지금도 그렇고 앞으로도 데이터 과학자가 품귀 현상을 빚을 것이라는 예측을 내놨다.
P.245 빅 데이터의 가치 사슬에서 가장 큰 가치를 손에 쥐는 사람은 누구일까? 현재까지의 대답은 빅 데이터 사고방식을 가진 자들, 즉 혁신적 아이디어를 가진 쪽인 것 같다.
P.255 영화 <머니볼>은 야구에 분석과 새로운 지표를 적용해 오클랜드 애슬레틱스가 승리 팀이 되는 얘기다. ...인간의 판단 능력에 있는 결함을 완벽하게 묘사하고 있다. 이성적인 토론인 양 얘기들을 나노고 있지만 실제로 확실한 근거는 아무것도 없다. 수백만 달러가 걸린 선수 계약을 결정하면서 객관적 척도는 없이 직감에 의존한다.
P.259 제프 베저스는 아마존에서 내부 도서 리뷰 담당자들을 없앴다. 알고리즘에 의한 추천이 더 큰 판매고를 올린다는 것을 데이터가 보여주었기 때문이다. 이것은 직장에서 성공하는 데 필요한 역량이 바뀌고 있음을 보여준다.
P.259 빅 데이터의 선구자들은 자신이 현재 두각을 드러내는 영역이 아닌, 다른 분야 출신인 경우가 많다. ... 빅 데이터 프로젝트를 위한 온라인 플랫폼인 캐글 데이터 마이닝 대회에서 우승하는 사람들은 해당 분야가 처음인 경우가 대부분이라고 캐글의 CEO 앤서니 골드블룸은 설명한다.
P.260 분명 전공별 전문가들은 사라지지 않을 것이다. 다만 그 우월성이 줄어들 것이다. 이제부터는 빅 데이터 전문가들과 무대를 나눠 써야 하기 때문이다.
P.261 수학과 통계학, 그리고 약간의 프로그래밍과 네트워크 과학이 직장 생활의 기본이 될 것이다.
P.276 아마존은 우리의 쇼핑 취향을, 구글은 우리의 브라우징 습관을 모니터하면, 트위터는 우리 마음속에 있는 것을 안다. 페이스북은 이 모든 정보와 함께 사회적 인간관계 정보까지 수집하고 있는 것 같다. 이동통신 사업자들은 우리가 누구와 이야기를 나누는지 알 뿐만 아니라 근처에 누가 있는지까지 안다.
P.277 책임감 있게 사용한다면 빅 데이터는 합리적 의사 결정을 위한 유용한 툴이다. 하지만 현명하지 못하게 행사된다면 빅 데이터는 힘 있는 자가 고객과 직원들을 좌절시키거나,  더 나쁘게는 시민들에게 위해를 가하기 위해 사용하는 탄압 수단이 될 것이다.
P.288 <마이너러티 리포트>가 그려내는 불안한 미래는 또한 점검되지 않은 빅 데이터 분석이 가져올 수도 있는 위험한 미래다. 개인의 미래 행동에 대한 예측에 기초해 그 사람의 책임을 판단하는 미래 말이다.
P.303 구글은 모든 것을 데이터에 따라 운영한다. 그리고 이 전략은 분명 많은 성공을 낳았다. 하지만 회사는 때로 이 전략 때문에 실수를 하기도 한다. ...구글은 과거에 막강한 기술 기업들이 저질렀던 실수를 되풀이하고 있다. 사람들의 실제 능력보다 이력서를 중시하는 실수 말이다. ... 구글의 기준에 따른다면 대학 학위가 없는 빌 게이츠나 마크 저커버그 혹은 스티브 잡스는 취업을 하지 못했을 것이다.
P.304 '회사가 기술자들로 가득 차면 문제를 해결할 때 기술적 요소에 의존합니다. 각각의 의사 결정을 단순한 논리 문제로 일축해버리죠. 그 데이터는 결국 모든 의사 결정의 기준이 되고 회사를 마비시킵니다.'
P.305 데이터의 사용은 권력자의 힘을 강화하는 데 이바지하는 경우가 많다.
 
 

댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo