-
-
빅데이터의 충격 - 거대한 데이터의 파도가 사업 전략을 바꾼다!
시로타 마코토 지음, 김성재 옮김, 한석주 감수 / 한빛미디어 / 2013년 1월
평점 :
절판
두둥~ 책 도착. 생각보다 얇아서 안심(?) 했어요~ 비전공자, 특히 인문계열인 제가 이해할 수 있을까, 전문적인 용어가 많으면 어쩌지,하며 걱정한 책이에요. 그럼에도 불구하고 책을 봐야했던 이유는[빅데이터의 충격]이란 제목처럼 어떤 충격이 가해졌는지, 혹은 가해질지 답을 줄 것 같은 책이었고 인간행동의 예측이라는, 예전엔 심리학의 영역에서나 연구했던 부분들이 컴퓨터 과학자들에 의해 예전과는 비교도 되지 않게 상당히 정확히 예측 할 수 있는 기술이 빅데이터다,라고 들었기 때문입니다. 자연과학과는 담 쌓고 사는 저 역시 심리학 서적보다는 이런 빅데이터 관련 서적에 눈을 돌리게 될 정도니..^^;; 대단한 것이겠죠.
빅데이터에 관련 서적은 읽었지만 비전공자라 배경지식이 거의 없는 수준이라 말할 수 있기에 제가 가졌던 질문과 답을 서평으로 대신해봅니다.
#1. 빅데이터, 너는 누구냐?
나? 나는 말이야. 데이터양, 다양성, 속도 측면에서 관리가 곤란한 데이터 및 그 데이터를 축적 처리 분석하는 기술이라고 말할 수 있어. 나아가 그 데이터를 분석해서 유용한 의미와 통찰을 이끌어 낼 수 있는 인재와 조직을 포함하는 포괄적인 개념이야. 데이터를 출적 처리 분석하기 위한 기술이란 대규모 데이터를 분산처리하는 프레임워크인 "하둡"과 확장성이 뛰어난 NoSQL 데이터베이스 그리고 기계학습이나 통계분석등을 가리켜. 데이터를 분석해서 유용한 의미와 통찰을 이끌어낼 수 있는 조직이란 현재 미국과 유럽에서 서로 데려가려는 데이터 과학자와 빅테이터를 효과적으로 활용할 수 있는 조직의 모습을 의미해.(p27~28)
1-2. 기술적 측면에서 현재 얼마나 발전한거니?
흠, 빅데이터를 처리하기 위한 기술로 나온 것이 하둡기반의 맵리듀스야. "하둡"이란 한마디로 말해 오픈소스로 공개된 대규모 데이터의 분산처리 기술이야.(p46) 맵리듀스는 분산처리라는 '처리방식'이고.... 하둡은 맵리듀스를 오픈소스로 구현한 프레임워크라 말할 수 있어.(p48)
아, 그리고 데이터양과 다양성 측면에서 관리가 곤란한 데이터는 하둡기반 맵리듀스로, 분석적 데이터베이스로 감당할 수 있지만, 속도(발생빈도, 갱신빈도)를 처리하기 위한 스트림데이터 처리(실시간 데이터 처리)기술이 필요해. 지금 열심히 개발 중이지.
하지만 중요한 것은 유용한 의미를 효율적으로 끌어내기 위해선 기계학습이나 데이터마이닝, 클러스터링, 신경망 네트워크, 회귀분석, 연관분석, 링크마이닝 같은 기술이 필요해.
1-3. 활용은 어디까지 이뤄지고 있어?
알잖아. 미국과 유럽에선 이미 많이 사용하고 있어. 이베이는 매일 50테라바이트의 데이터를 생성하고 처리해 고객들을 관리한데. 특히 게임회사들이 빅데이터에 관심을 갖고 있지. 오죽하면
"우리는 게임 회사의 탈을 쓴 분석 회사다"(p87)
이란 말을 하겠어? 그뿐만 아니라 에너지회사에서도 고객의 에너지 소비패턴을 파악하고 장래 소비 동향을 예측한다고 해. 유통업체도 물론이고.
"한 개인의 감성보다 수천만 명의 데이터를 믿는다"(p119)
는 말처럼 기업에서도 데이터를 의사결정에 적극 반영하려는 움직임이 보여.
1-4 내가 주의를 기울이지 못해 남긴 흔적들, 혹은 어쩔 수 없이 남긴 흔적들이 자동으로 수집되고 분석되는 이 징그러운 세상에 태클걸 제도적 장치는 없는거니?
인터넷 사용자 행동 추적을 간단히 거부할 수 있는 수단을 소비자에게 제공하자는 비영리단체의 움직임이 2007년에 있었고 2010년에 미국연방거래위원회가 개인정보보호 문제에 대한 새로운 틀로서 공표한 보고서인 '급격히 변화하는 시대의 소비자 개인정보보호'에서 DO NOT TRACK을 제안했어. 현재 웹 브라우저 개발업체에서 사용자가 추적 거부 의사를 선택할 수 있도록 개발하고 있고. 구글의 크롬과 파이어 폭스는 DO NOT TRACK을 지지하고 있데. 크롬이나 파이어폭스에서 추적 거부를 선택하면 행동타케팅 광고를 거의 표시 되지 않게 된다는 말씀. 더 자세한 내용은 책 6장을 꼼꼼히 읽어봐~
#2. “데이터사이언티스트”라는 새로이 등장한 직업을 꿈꾸는 아이들에게 무엇을, 어떤 분야를 기본적으로 다루는지 알려줄래?
=> 좀 전에 말했듯이, 빅데이터에서 의미있는 정보를 주기 위해서는 통계, 기계학습 등의 기술이 사용돼. 따라서 빅데이터 시대의 데이터 과학자에게는 이것들을 처리할 수 있는 전산학적 지식(스크립트 프로그래밍 능력, 기계학습/ 데이터마이닝, 분산처리)이 요구돼. 데이터 과학자라는 직업의 수요는 공급을 앞질러. 그래서 인력부족을 우려하고 있는 실정이야. 이에 대학원에서 수학과 통계학 고급 컴퓨터 공학과 데이터분석을 조합한 형태로 커리큘럼을 개설할 예정인가봐. 일본도 미국 기업도 데이터 과학자 구인경쟁이 대단하다고 해~
#3. 책에 대한 종합적 평가를 말해달라고?
흠, 사실 궁금했던 부분은 많이 풀렸어. 빅데이터에 대한 기술적 측면, 활용적 측면, 제도적 측면 등을 얇고 광범위하게 다룬 균형 잡힌 책이란 점에서 좋았고. 하지만 읽으면서 현재 한참 빅데이터 관련 서적을 펴내고 있는 일본 노무라 종합연구소의 책 내용과 비슷하다는 점에 살짝 실망했던 부분은 있어~^^ 하지만 네 덕분에 무지에서 비롯된 두려움은 없어진 것 같아~ ^^