빅데이터를 지배하는 통계의 힘 : 입문 편 - 통계학이 최강의 학문이다 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김 / 비전비엔피(비전코리아,애플북스) / 2013년 7월
평점 :
구판절판


이 책은 빅데이터에 대한 책은 아니다. 반드시 서점에서 보고 자신이 원하는 내용인지 확인하고 사야하는 책이다. 서점에 가서 빅데이터 책들을 보면 무슨 몬문을 가져다가 그래도 책으로 만든 것부터 빅데이터와 별로 관련도 없는데 빅데이터라는 말을 붙여놓은 책도 많다. 그만큼 빅데이터가 많은 화제가 된다는 것이겠지만 이럴 때일 수록 책을 잘 골라서 읽어야 원하는 정보를 얻을 수 있다. 이 책은 빅데이터에 대한 언급도 있지만 기본적으로는 통계학에 대한 책이다. 그럼에도 이 책은 좀 읽어볼 가치가 있다. 과연 빅데이터가 기존 패러다임을 완벽하게 대체할 새로운 마케팅 기법일까? 이제 슬슬 이런 논의가 시작될 시점이다. 나는 데이터를 다루는 직업을 가졌다. 전통적인 관계형 데이터베이스를 다룬다. 이런 데이터는 일명 정형 데이터다. 업무용 데이터로 기업에서 사용하는 내부 데이터가 대부분이다. 이 데이터는 고도로 구조화되고 정확해야 한다. 정합성, 일관성, 데이터 품질 등의 중요하다. 반면 빅데이터는 비정형 데이터라고 볼 수 있다. 기존 데이터 개념과 이부분이 근본적으로 다르다. 그러면 통계학에서 다루던 데이터와 빅데이터를 또 어떤 차이가 있을까? 이 책에서는 이 부분에 대해 자세하게 설명한다.  빅데이터에 대해서는 <빅데이터가 만드는 세상>이라는 책을 참고로 하면 좋다. 지금까지 나온 빅데이터에 대한 대부분의 정보가 잘 정리되어 있다. 이 책에서는 빅 데이터에서 중요한 것은 결론이지 이유가 아니며 어떤 현상의 원인을 항상 알아야 할 필요는 없고 우리는 데이터 스스로 진실을 드러내게 하면 된다고 말한다. 이부분이 <빅데이터가 지배하는 통계의 힘> 과 결정적으로 다른 내용이 아닌가 생각된다.
<빅데이터가 만드는 세상>에서도 통계에 대한 언급이 나온다. 바로 표본조사에 대한 이야기다. 두 책에서 모두 이 표본조사의 우수성에 대해 한목소리를 낸다. 모집단만 훌륭하다면 굳이 전수조사로 비용과 시간을 낭비할 필요없이 표본조사로도 훌륭한 결과를 얻을 수 있다고 말한다. 그러면 굳이 빅데이터를 활용할 이유는 없지 않을까? 문제는 샘플의 정확성이다. 표준조사에서 채택하는 무작위 샘플링의 신뢰도가 문제가 되는 것이다. 이 샘플링이 믿을만 하면 굳이 빅데이터를 활용할 필요는 없다. 하지만 이 무작위성을 얻는 것이 쉬운 일이 아니다. <빅데이터가 지배하는 통계의 힘>에는 이런 언급은 없다. 이 책에서는 이렇게 말한다. 빅데이터는 차선이라는 것이다. 빅데이터가 무의미하지은 않지만 우선은 올바른 판단에 필요한 최소의 데이터를 다룰 것을 추천한다. 앞서도 말했듯이 빅데이터를 분석한다는 것, 일종의 전수조사라는 것은 엄청난 시간과 노력, 비용이 동반되기 때문이다. 두 책을 비교하며 읽어보고 자신만의 결론을 도출한다면 빅데이터와 통계에 대해 많은 지식을 얻을 수 있을 것이다.
 
가장 흥미있게 읽은 부분은  '문장을 분석하는 텍스트마이닝'에 대한 내용인데 개인적으로 가장 관심이 많은 분야다. 대문호 세익스피어가 사실은 철학자로 유명한 프랜시스 베이컨이 아닌가 라는 의혹에 대해 과학적으로 분석을 해서 결론을 내렸다고 한다. 두 사람의 문장을 비교했더니 평균적인 단어의 길이나 한 문장 속에 든 단어의 수가 동일하다고 볼 수 없다는 결과가 나왔다고 한다. 이러한 텍스트마이닝은 발전을 거듭해서 현재 구글 검색에도 응용되고 있다. 구글은 사전을 사용하는 형태소 해석이 아닌 엔그램 방식을 사용하는데 이 방식은 그다지 일반적이지 않은 단어를 검색해도 해당하는 페이지가 펼쳐지는 이점이 있다.
 
이 책을 읽고나면 의문이 들 것이다. 그래서 빅데이터가 필요하다는 거야 아니라는 거야 라고 말이다. 정답은 어디에도 없다. 내가 일하는 관계형 데이터베이스 관련 업체들은 빅데이터도 중요하지만 일단 기업이 가진 정형 데이터의 품질이 중요하다고 주장하고 빅데이터 관련 업체에서는 우리가 필요한 것은 이유가 아니라 결과라며 일단 빅데이터가 보여주는 결과가 중요하다고 말하고 정형 데이터는 구식이라고 말한다. 이 책의 저자와 같은 통계 전문가는 굳이 유행에 휩쓸려 비용과 시간이 드는 빅데이터를 분석하는니 표본조사를 하는 것이 더 나을 수도 있다고 주장한다. 도대체 누구의 말이 맞는 것일까? 이런 판단을 스스로 할 수 있도록 데이터에 대해 더 공부해봐야겠다는 생각이 든다. 어찌되었던 이 데이터와 통계학은 최근 들어 가장 유망하고 관심을 받는 분야임에는 틀림없다.
 
<인상적인 대목>
P. 016 1903몀, H G 웰스는 읽기, 쓰기 능력과 마찬가지로 통계학적 사고 역시 장차 사회인이 갖춰야 할 기본교양이 될 것이라고 예언했다.
P. 017 읽고 쓰는 능력을 리터러시라고 하는데 통계학적 리터러시, 즉 '통계 리터러시'가 없으면 사업적으로, 개인적으로 제대로 큰 결정을 내리지 못할 위험이 크다.
P. 021 통계학 지식은 현대 비즈니스맨이 지녀야 할 최강의 무기로 통계자료는 모든 의사결정에 가장 먼저 필요한 기본 장비이다. 이미 비즈니스 영역에서는 통계학을 응용한 솔루션으 가리켜 '비즈니스 인텔리전스(BI)'라는 용어까지 만들어냈다.
P. 023 왜 통계학은 최강의 무기가 되었는가? 어떤 분야에서든 데이터를 모아 분석해 가장 올바르고 빠른 답을 제시해주기 때문이다.
P. 024 세상에는 종종 사소한 의사 결정이 많은 사람의 목숨까지 좌지우지해 도저히 책임을 묻지 않고 그냥 넘어갈 수 없는 경우도 있다.
P. 034 아이를 대학고 졸업시키지 저에 고시시험에 합격시켰다거나 자녀 여럿을 도쿄 대학교에 보냈다는 사람들의 개이적인 경험담을 듣고 싶어 하며 그들의 말에 무조건적인 신뢰를 보내기도 한다. 하지만 어떤 교육이 좋은지는 개인의 특성이나 능력, 환경 등 여러 요인에 의해 달라지며 이는 의료와 마찬가지로 불확실성이 큰 분야다
P. 038 바라든 바라지 않든 어떤 학무에 종사하는 학자라도 통계학을 사용해야 하는 시대가 이미 도래했으며 통계 리터러시만 갖추고 있으면 경험과 감 이상의 실제적인 무기를 손에 넣으 것이다.
P. 043 통계학의 기본 방식이나 기법 자체는 대부분 수십 년 전 완성되었지만 그것을 누구라도 언제든 손쉽게 사용할 수 있도록 만든 것은 20세기 말부터 시작된 IT혁명이다.
P. 045 지금은 데이터 양이 아무리 방대해도 어떤 계산이든 할 수 있다. 그렇기 때무에 더욱더 '통계해석'이 중요해졌다. 막대한 정보를 단순히 기록하고 보관만 해서는 아무런 도움이 되지 않는다. 바로 이 통계해석이 빅데이터, 비즈니스 인텔리전스 등의 유행하는 단어로 바뀌어 사용되고 있는 것이다.
P. 049 최선의 답은 이미 여러부 주변에 있는 데이터 속에 잠들어 있다. 만약 그곳에 없다면 필요한 데이터가 아직 다 모이지 않은 것이다. 통계학이라는 최강의 학문만 알면 누구나 방대한 자료를 이용해 더 부자가 되고 더 능력 있는 사람이 될 수 있다.
P. 056 결제권을 가진 몇몇 어르신들은 '뭔가 알지도 못하는 것'에 종종 막대한 자금을 투입한다.
P. 061 표본조사는 그 후 10년 이상 신중하 검증을 거듭했는데 놀라우리마치 정확한 결과라는 사실이 밝혀졌다
P. 062 판단과 행동에 영향을 미치지 않는 수준의 오차는 무의미하며 정확도를 높이기 위해 추가로 들여야 하는 비용은 쓸데없는 낭비다.
P. 062 제대로 대처하기 어려울 정도의 데이터가 존재할 때 적절한 표본조사만 이루어지면 적은 비용으로도 충분히 필요한 정보를 얻을 수 있다. 이것은 80년 전이나 지금이나 본질적으로 바뀌지 않은 진리이다. 그런데도 빅데이터에 관심 있는 비즈니스맨들은 이따금 빅데이터를 '빅'인 채로만 바라보려 하니 문제이다.
P. 067 표준오차란 표본에서 얻어진 비율에 대해 표준오차의 두 배를 뺀 값에서 표준오차의 두 배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 약 95%라는 값을 말한다. 즉 표본조사의 실업률이 25%라는 조사 결과가 얻어지고 표준오차가 0.5%라면 전수조사를 통해 얻어지는 참 실업률도 24%~26% 사이에 있다고 생각하면 거의 틀림없다. 통계학자들은 이 같은 내용을 80년 이상 전에 증명했다.
P. 069 불과 1% 정도의 정확도를 개선하기 위해 과연 수 천만엔이나 투자할 가치가 있을까? ... 빅데이터가 무의미하다는 이야기가 아니다. '우선은 올바른 판단에 필요한 최소의 데이터를 다룰 것'을 추천하는 것이다.
P. 070 최종적으로는 모든 데이터를 분석하고 검증할 필요가 있더라도 우선은 적절한 크기의 표본 데이터를 이용해 탐색적 해석을 통해 가설을 유추해내는 편이 낫다.
P. 080 캠페인 내용을 아무리 많은 사람이 알고 있어도 실제로 구매행동으로 이어지지 않으면 별다른 의미가 없다.
P. 085 사람은 누구나 한번 선입견을 가지면 모든 일을 자기 형편에 맞게 해석하는 경향이 있다. 통계학은 그런 인간의 결함을 보완해준다. 경험과 감이 아니라 확실한 데이터를 바탕으로 비교했을 때 이익을 좌우하는 차이를 알 수 있다.
P. 091 버락 오바마닷컴을 방문화 유권자를 대상으로 어떤 그림이나 메시지를 노출하느냐에 따라 선호도가 어떻게 달라지는지 측정해 유권자를 타겟팅(목표)별로 나눠 새로운 선거 전략을 짰고 이는 결과적으로 오바마를 재당선시켰다.
P. 095 무턱대고 빅데이터만을 주장할 필요도 없지만 의미있는 해석이 가능한 최소 표본의 수는 알고 있어야 한다.
P. 096 '데이터를 어떻게 해석해야 하는가'가 통계학의 핵심이라는 사실은 누구나 알고 있다. 그러나 실제 현장에서는 어떤 데이터를 수집하고 해석할까' 하는 부분이 더 중요하다. 이는 종종 통계 전문가의 센스라는 말로 처리되곤 하는데 좀 더 깊이 생각하면 누구나 이 센스를 자기 것으로 만들 수 있다.
P. 103 유망한 가설을 추출하는 속도와 정확도야말로 현대 통계학의 가장 큰 존재의의이며 이는 지루한 회의석상에서 탁상공론을 일삼는 것보다 유익하다.  
P. 119 권력 다툼에서 패한 실의의 나날이라 볼 수도 있는 이 기간 동안 그는 오로지 호자 힘으로 역사를 움직이는 대발견을 몇차례 해냈으니, 사람의 인생은 참으로 알 수 없다. 피셔와 같은 천재에게 있어 대발견에 필요했던 것은 멋진 사무실도, 직함도, 뛰어난 동료 연구자도, 부족함이 없는 연구비도 아니었다. 자유롭게 사용할 수 있는 시간과 그저 데이터만 준비돼 있으면 되었다.
P. 120 밀조차 수확량이 일률적이지 않아 과학적으로 처리하기가 힘든데, 하물며 인간과 그 집단인 사회를 분석하는 것은 피셔 이전의 과학관으로는 전혀 상상조차 못했던 일이다.
P. 121 임의화 비교실험을 적절히 다룰 줄 알게 되면, 그로 인해 검증된 결과는 이제 과학적으로 옳다고 보아도 무방하다.
P. 135 아마존닷컴은 한때 가격산정 방법을 개선하기 위해 임의화 비교실험을 한 적이 있는데 그 사실이 고객에게 처음 알려졌을 때 크게 문제가 되었다.
P. 150 당시 사용된 통계학적 기법의 상당수가 진화론적 사고방식을 검증하기 위해 생겨났다고 해도 무방할 정도이다. 피셔가 멘델의 연구를 트집 잡았던 것도, 그 자신이 통계학자이면서 동시에 유전학이나 생물학 연구에도 관심이 있었기 때문이다.
P. 155 지능이 높은 부모에게서 태어난 자녀가 평균지능도 높다고 생각할지 모르지만, 반드시 그렇다고 추정할 수 있는 통계해석은 아직까지 세상 어디에도 없다. 그러므로 인류는 양극화 방향으로 진화할 일이 없으며 유전이나 인종에 근거해 인간을 차별할 이유 또한 전혀 없다.
P. 225 통계학자가 학생들을 직접 불러모아 설문자사 결과나 실험동물의 검사치를 종이 위에서 손으로 계산하던 시절부터 그들은 이미 대량의 데이터를 실제로 가지고 있었고 그 데이터로부터 도움이 되는 정보를 추출하려고 노력해왔다.
P. 228 통계학을 아는 사람이라면 '좀 더 좋은 방식이 있다'는 사실을 곧바로 알아차린다. 구글사의 공동 설립자인 세르게이 브린도 그중 한 사람이다. 그는 학창시절에 이미 '장바구니 분석보다 통계학적 상관분석이 낫다'는 내용의 논문을 발표한 바 있다.
P. 231 시장 또는 고객을 유사성이 많은 그룹으로 세분화해야 하기 때문이다. 마케팅에서 세그먼테이션을 하지 않으면 아무나 걸리라는 식으로 보편적인 상품을 만들어 광고에 의존해 파는 수밖에 없다.
P. 240 초기 계량문헌학의 연구자는 셰익스피어의 문체를 분석하려고 했다. ...'그가 사실은 철학자로 유명한 프랜시스 베이컨이 아닌가?' 하는, 당시 공공연히 떠돌던 가설을 검증하기 위해서였다. ... 그는 평민 출신이므로 역사적 자료가 너무 적은데다가 그럼에도 비교적 귀족의 문화나 교양을 그리느 데 능숙했기 때문에 누군가 다른 지체 높은 인물이 작품을 쓴 것은 아닌가 하는 의심을 가졌던 것이다.
P. 242 형태소 해석이란 일반적으로 문장을 단어별로 분리해 어떤 단어가 몇 번 사용되었는지 집계하는 작업을 말한다. 또한 언어학적 용어로 '형태소'는 단어보다 짧은, '언어로서의 의미를 가지는 최소 단위'를 가리킨다.
P. 244 엔그램에서는 5글자라는 그램 이하의 글자 수인 '통계학'이라는 단어도 확실히 반견된다는 이점이 있다. 구글에서 그다지 일반적이지 않은 단어를 검색해도 해당하는 페이지가 펼쳐지는 것은, 그 배후에 방대한 양의 엔그램 데이터가 존재하기 때문이다.
P. 246 텍스트마이닝을 통해 그 전체상을 파악하면 생각지도 못했던 신상품이나 프로모션 캠페인의 아이디어를 끌어낼지도 모르는 일이다.
P. 247 텍스트마이닝의 배후에 있는 기술을 능숙하게 다루기 위해서는 당연히 고도로 숙련된 통계학 지식이 필요하다. 그러나 이용 도구만 다룰 줄 알면 누구라도 간단하게 활용할 수 있다. 하지만 그 결과로부터 어떤 가치를 낳는지 종합적으로 판단하기 위해서는 결국 통계 리터러시가 중요한 역할을 한다.

댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo