빅데이터를 지배하는 통계의 힘 : 입문 편 - 통계학이 최강의 학문이다 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김 / 비전비엔피(비전코리아,애플북스) / 2013년 7월
평점 :
구판절판


 

빅데이터를 지배하는 통계의 힘


나는 전산과를 졸업하여 데이터베이스 업무를 주로 하고 있다. 그래서 데이터나 데이터베이스란 제목의 책을 보면 반사적으로 읽게 된다. 그런데, 통계는 좋아하지 않는다. 그 이유는 고등학교 시절부터 대학까지 통계학 과목은 언제나 C,D,F를 면치 못해서 이다.


그런데, 오늘 소개하고자 하는 이 책은 내가 관심 있는 것과 싫어하는 것이 혼합된 책이다. '빅데이터를 지배하는 통계의 힘'. 어쩌면 오랫동안 내가 부담을 느끼던 통계에 대해서 해결책을 찾을 지도 모른다는 생각을 했다. 또한, 내게 있는 모순에 대해 고민할 기회가 되어 주었다.


데이터베이스는 많은 일정 형식의 데이터를 엑셀과 같은 표로 관리하는 것을 말한다. 이러한 표는 그 자료의 양에 따라서 엑셀로는 관리가 불가능하거나 저장 자체가 안되는 경우가 있다. 엑셀에서 행 단위 자료가 100만개 정도이면 저장시 일부 자료를 잘라서 버리는 경우가 발생한다. 왜냐면 엑셀의 최대 능력치를 넘어서는 데이터의 양으로 인한 문제이다.


그렇게 해서 오라클이나 MS 에스큐엘서버 등의 사용 데이터베이스를 활용하여 수억, 수조 이상의 자료들을 분석하거나 관계를 해석할 수 있다. 내가 좋아하는 데이터베이스가 이런 일을 한다. , 내가 싫어하는 통계 작업을 자동으로 잘 해주기 때문에 나는 이 학문을 좋아한다. 하지만 내가 좋아하는 데이터베이스의 고수가 되기 위해서는 통계와 확률에 깊은 이해력이 필요하다. 왜냐면 불필요한 처리 절차나 해석 과정을 제외하는 작업으로 수억, 수조 건의 데이터 중에서 실제로 필요한 만 여 개로 범위를 줄일 수 있기 때문이다. 결국 단 시간에 빠른 분석이 가능해 진다.


이것이 나의 딜레마이다. 내가 잘하지 못하는 것을 해야 되는데, 다른 것으로 이것을 해결은 했으나, 수준 높은 단계로 올라가기 위해서는 결국 내가 잘하지 못하는 것을 잘 해야 되는 것이다. ^^; 그런데 이 책을 읽으면서 어느 새 내가 통계에도 관심과 애정을 갖고 있음을 알게 되었다. 실제로 10년 이상 데이터베이스 분석을 하면서 작업 시간 단축과 효율성 제고를 위해서 통계학을 이용한 접근을 하고 있었기 때문이다.


통계학. 매우 이성적이고 합리적인 학문이다. 미래 예측을 하려면 감과 경험이 아닌 철저한 과거 데이터를 분석하여 접근하여야 한다. 통계학은 그래서 미래 지향적인 학문이다. 이 책의 저자 또한 의학부를 졸업하였지만 통계가 전문이다. 의사가 아니다. 동경대 의학부 생물통계학을 전공하였다. 졸업 후에도 꾸준히 통계 업무를 하고 있다. 국내에서는 생물통계학이란 전공은 없는 것으로 알고 있다. 심지어 의학부에 그런 세부 전공도 없다. 국내의 모든 통계 업무는 통계학 전공자보다는 나와 같은 전산학 전공자들이 대신 수고하고 있다. 그런 이유로 인해서 인지 기상청의 일기예보는 완전히 신뢰할 수 없다. 수십억 짜리 수퍼컴이 동작한다고 해도 그 안에 돌고 있는 소프트웨어는 전산쟁이들의 작품이다. 통계학 전공자나 기상학 전공자의 노하우가 100% 녹아들지 않으면 현실과는 차이가 발생한다.


현재 세상에는 구글과 같은 빅데이터 보유 회사들이 넘쳐나고 있다. 저마다 꽤 오랫동안 이런 저런 내용과 형식의 데이터를 보유하고 있다. 그런데, 버리려니 아깝고 쓰려니 어떻게 해야 할 지 몰라 고민에 빠져 있다. 빅데이터 분석의 골간은 결국 통계학이다. 모든 데이터의 분석을 통한 미래예측과 향후 대비는 모두 통계학의 표본 분석으로 가능하다. 그러나 한번 분석하는데 너무 많은 수고와 비용이 든다면 해답이 아니다. 통계학의 원칙에도 위배된다. 과거 분석결과의 신뢰도가 낮다면 매번 고비용의 분석이 재실행 되어야 한다.


어떤 일을 했던지 각자의 업무 영역에서 통계학은 새로운 해결책과 기회를 제공할 것이다. 이 책은 어쩌면 뻔한 내용을 새삼 화두로 꺼내 놓은 약삭빠른 책일지도 모르겠다. 하지만 책이 주장하듯이 우리가 경쟁력을 갖추는 방법은 틈틈히 통계의 기본기를 잘 배우고 익히는 것이다. 나도 이 책의 주장에 동의한다.


 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo