-
-
빅데이터를 지배하는 통계의 힘 : 입문 편 - 통계학이 최강의 학문이다 ㅣ 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김 / 비전비엔피(비전코리아,애플북스) / 2013년 7월
평점 :
구판절판
개인적으로 빅데이터에 대해 접했던 것은 ebs 교육방송에서 손석희교수를 사회자로 하는 프로그램을
통해 미국대통령선거가 이 빅데이터를 잘 활용함으로 이루어졌다는 사실을 통해서다.
일반인들이 생각할 때는 정말 정렬되지 않는 무지막지한 용량의 데이터를 정보로 이용해서 파워화하는
그들의 현실이 말 그대로 서프라이즈였다.
그 연장선상에서 이 책은 나에게 무척이나 호기심을 유발시켰다.
저자는 빅데이터를 통계를 활용하여 사회혁신에 이바지하는 일들을 하는 통계학 전문가이기도 하다.
빅데이터는 우리가 상상할 수 없는 정도의 자료를 말한다.
페이스북, 트위터, 각종 SNS를 통한 각종 데이터가 어떻게 정렬 되는냐에 따라 그것은 세계적 파워로
변화, 활용될 수 있으며, 그것은 단지 이익이상의 파워로 될 수가 있는 것이다.
이 빅데이터는 통계학에 의해 지배된다는 것이며,
그 통계학에 대해 설명하며, 그 통계학의 발전상과 원리를 통해 우리 실생활과 산업에 그 얼마의 적정한
정보를 얻을 수 있는지를 소개한다.
특히 현대 통계학의 아버지로 알려진 천재 로널드 A. 피셔에 의해 개발된 임의화 통계학에 대해 자세히
소개한다.
통계학에는 전수검사와 샘플링 검사라는 것이 있을 수 있는데,
그 2가지의 장,단점에 대해서는 여러 효과를 말할 수 있겠으나 빅데이터를 이야기하는 면에서는 전수검사는
비용,효용가치 등에서 비효율적이라 하겠다.
어찌되었든 임의화는 샘플링 검사의 그 오류사항을 대체하는 통계방법이라고 할 수가 있다.
샘플링 검사를 하는 것중 어떻게 샘플링 검사를 하느냐에 따라 그 검사 자체가 오류를 품을 수 있는 것이라면
그것은 문제이다.
임의화는 그 오류를 말 그대로 어떠한 절차 없이 임의적 샘플링 검사를 시행함으로 발생할 수는 임의적 조건을
방지하는 것을 말할 수 있다.
임의화 통계에서도 보완이 필요한 부분이 있기는 하다.
사실 통계학에서 주의할 점은 여러가지가 있을 것이다.
윤리, 현실, 감정적인 면에서 문제가 예견된다면 그것은 아무리 무요류의 통계일지라도 안하는 것이 옳다.
예를들어 아마존닷컴에서 적정단가에 대한 임의화 통계를 시행했을 때, 최저단가와 그 이상의 단가를 적용해서
시험했다. 그 이상의 단가를 접하여 구매하는 소비자들에게 항의를 받았다.
곧바로 아마존닷컴은 사과하고 보상을 해 줌으로 위기를 모면했지만, 그런면에서 이 3가지는 통계학에서
주의해서 판단되어야할 부분이다.
통계학은 그 활용면이 무궁무진하다.
할 배리언 구글 수석 경제학자이자 미국 UC버클리대 교수는 '거듭 말하지만, 10년 이내에 통계가는 가장 섹시한
직업이 될 것이다'라고 하였다.
개인적으로도 워렌 버핏 회사의 핵심인재들은 경제학 전공자나 전문가가 아닌 통계학 전문가라고 알고 있다.
그저 감이나 경륜으로 이 거대한 세계와 정보를 판단하고 어떤 결정을 하는 것은 무모한 짓이다.
이제는 현실의 데이터를 분석하여 합리적이고, 타당한 결정을 해야 한다.
통계학은 앞으로도 그 발전성이 지속되고 있다.
그러면서도 그 활용면 또한 무궁무진하다. 특히 기업체의 활용도는 그 공격적이고, 적극적인 면이 상상을 초월하다.
우리의 일거수가 데이터화 되어 누군가에 의해 지금도 분석되어지고, 활용되어지고 있다는 것이다.
이것은 현실이다. 국가적 정보전쟁 이상의 현실 속에 우리는 이 빅데이터를 잘 활용함이 우선이구나라는 생각을
갖게 했다. 앞에서 언급한데로 통계학의 금물 3가지 조건을 상기할 필요가 있다. 윤리, 현실성 그리고 감정.