빅데이터를 지배하는 통계의 힘 : 입문 편 - 통계학이 최강의 학문이다 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김 / 비전비엔피(비전코리아,애플북스) / 2013년 7월
평점 :
구판절판



나에게 이 책을 읽으라고 권고하는 데 거부할 힘이 없었다. 예전에도 이 책에 대한 리뷰를 읽고 기억은 했는데 잊고 있다 이번에 권고를 받아 무조건 읽었다. 내 경우에 누가 읽어보라고 하여 읽지는 않는다. 읽은 책인 경우도 많고 다른 책을 통해 충분히 비슷한 내용을 알고 있어 꼭 읽어야 필요성을 느끼지 못할 때도 있다. 그런데, '시장을 읽는 눈' 블로그를 운영하는 채훈아빠님이 내가 통계책을 읽는걸 보고 직접 추천하시니 즉시 읽게 되었다.


내가 믿고 추천받는 사람들이 몇 있다. 나보다 더 대단한 사람이 읽고 좋다고 한 책이라 어지간하면 기억했다가 읽도록 한다. 그만큼 다독을 통해 골르고 골라 좋다고 추천하는 것이라 후회한 적이 없다. 그런 책이 바로 <통계의 힘>이다. 통계는 예전부터 여러 책을 통해 접했다. 저자들이 직접 통계에 대한 자세한 설명을 한 것이 아니라 이미 통계낸 내용을 근거로 알려준 것이라 잘 받아먹기만 하면 되었다. 여러 용어들을 몰라도 읽고 이해하는데 지장은 없었다.


지금까지 직접 통계를 내고 데이터 분석을 한 적은 거의 없다. 한 때 엑셀을 갖고 숫자 만들고 그래프나 표를 만든 적도 있고 주식 투자를 위해 10년 치 데이터를 다 입력한 후 적정 주가를 산출한 적도 있는데 참고할 사항이지 중요한 것은 아니라는 것을 알고서는 소홀히 했다. 늘 직접 제가 데이터를 가공하고 싶다는 생각은 있었지만 남들이 올린 데이터나 보는데 만족했다. 여러 책을 읽으며 점점 빅 데이터를 통한 통계로 분석하는 것을 보며 조금씩 필요성을 느꼈다.


굳이 내가 분석할 필요는 없어도 시중에 나와 있는 데이터를 제대로 분석할 줄은 알아야 한다는 필요성을 느껴 통계관련 책을 읽고 있는 중이다. 역시나 용어가 낯설다. 분석하는 방법은 그동안 접한 것으로 대략은 알겠지만 보다 깊히 들어가니 모르는 내용이 더 많다. 엑셀이 최고라고 하는데 R이라는 프로그램도 있다는 것을 알고 서점에서 얼핏 봤지만 우선 통계에 대한 기본적인 정보부터 익히고 서서히 접근해야 할 듯 하다. 분석 툴을 할 줄도 모르고 분석방법만 알려고 한다는 것이 말이 안 될 수도 있다.


정말로 다행인 점은 <통계의 힘>은 어렵지 않다. 내가 원하는 분석하는 방법에 대해 알려주는 책이라 더욱 유용했다. 어떤 식으로 통계를 해석해야 하는지 통계의 역사를 통해 하나씩 하나씩 껍질 벗겨내듯이 알려준다. 테이터를 분석할 때는 다음 세 가지를 꼭 기억해야 한다.


1. 어떤 요인을 변화시켜야 이익이 향상될까?

2. 그런 변화를 일이키는 행동이 실제로 가능한가?

3. 그에 따르는 비용이 이익을 상회할까?


아무리 통계를 통해 무엇인가 의미를 찾을 수 있어도 투입 비용 대비 이익을 볼 수 없다면 쓸데없는 시간 낭비가 된다. 그런 점에서 세 가지를 기억하며 분석을 해야 한다. 아무리 빅데이터를 통해 무엇인가 자료가 나왔다고 해도 실제로는 아무런 의미가 없을 수 있다. 분석할 줄 모르니 의미가 없는데도 의미로 생각하고 실행하면 빅 데이터를 통한 분석후 실행을 해도 아무런 변화를 느끼지 못한다.

데이터를 다루는 법에서 가장 중요한 것이 '임의화 비교 실험'이다. 인간이 제어할 수 있는 그 무엇이라도 인과관계를 분석할 수 있기 때문에 중요하다. 이를 해낸 장본인은 로널드 A. 피셔다. 그는 어느 부인이 '홍차를 먼저 넣은 밀크티'인지 '밀크티를 먼저 넣은 홍차'인지 알 수 있다고 말하자 사실인지 여부를 과학적으로 밝혔다. 두 가지 방식의 밀크티를 임의(무작위)로 마시게 한 후 어느 정도 맞히는지 검증했다. 놀랍게도 부인은 모두 맞혔다. 10번 모두 맞혔다면 확률이 0.1%로 식별 능력이 검증된다.


A/B 테스트는 두 종류를 비교해서 어떤 쪽이 더 높거나 좋은지 실험하는 것이다. 좋은 쪽을 다시 또 A/B로 나눠 비교실험한다. 이런 실험으로 의미있는 분석과 결과가 도출된다. 임의라는 표현은 '적당히' '대충'이 아니라 무작위다. 인간의 의사가 포함되지 않도록 확률적으로 분석해야 한다. 엑셀 같은 경우 =rand( )처럼 말이다. 이 개념은 굳이 통계로 받아들이지 않아도 자신의 사업에 적용한다면 큰 효과를 볼 수 있다.


구할 수 있는 모든 데이터의 관련성을 분석하고 결과를 예측하는데 있어 다음 도표를 참고하면 된다.(다만 표 내용을 알아야 한다는 어려움이)


 

 분석측(설명변수)

 두 그룹간의 비교

다그룹 간의 비교 

연속값의 크기로 비교 

복수의 요인으로 동시에 비교

 비교하고 싶은 것

(반응변수)

연속값 

평균값의 차이를 t검정 

평균값의 차이를 분산분석 

회귀분석 

다중회귀분석 

있음/없음 등의 두 값 

 분할표의 기술과 카이제곱검정

로지스틱 회귀 


A 학교와 B학교 같은 학년 학생에게 똑같은 모의고사를 했다.

남학생끼리 비교하니 A학교의 평균점수가 B학교보다 5점 높다.

여학생끼리 비교하니 A학교의 평균점수가 B학교보다 5점 높다.


이를 근거로 A학교가 평균점수가 높다고 하면 오류다. A학교는 남학생 160명, 총 득점 9600점, 평균점수 60점이고 여학생 40명, 총득점 3000점, 평균점수 75점이다. B학교는 남학생 40명, 총득점 2200점, 평균점수 55점이고 여학생 160명, 총득점 11200점, 평균점수 70점이다. 이를 합치면 A학교는 200명, 총득점 12600점, 평균점수 63점이다. B학교는 200명, 총득점 13400점, 평균점수 67점이다. 합친 점수로 볼 때 A학교가 아닌 B학교가 성적이 좋았다. 통계는 여기서 끝나느 것이 아니라 왜 B학교가 더 성적이 좋은지에 대한 해부를 해야 한다. 여러 조건을 다시 설정해서 이유를 밝혀야 빅데이터를 쓰는 이유가 된다.


통계는 총 여섯가지 분야에서 활용할 수 있다.

1. 실태를 파악하는 사회조사법

2. 원인을 규명하는 역학,생물통계학

3. 추상적인 것을 측정하는 심리통계학

4. 기계적 분류를 위한 데이터마이닝

5. 자연언어 처리를 위한 텍스트마이닝

6. 연역에 관심을 두는 계량경제학


이 중에 최근에 알게된 베이즈파와 이 책을 통해 알게된 빈도론파에 대한 이야기가 끝이다. 확률을 미리 상정하는 빈도론파와 상정하지 않는 베이즈파다. 앞면과 뒷면이 반반으로 나올 확률인 진짜 동전과 앞면이 80%, 뒷면이 20% 나올 확률인 가짜 동전이 있다. 빈도론파는 수천 번을 던져 이를 확인하며 확률을 산정한다. 베이즈파는 사전확률을 임의로 구한다. 그 후에 진짜경우와 가짜경우 각각의 상황에 사전확률과 조건부확률의 곱한다. 이를 통해 사후 확률로 진짜 동전과 가짜 동전을 구별한다.


이런 이유로 사회조사, 역학, 생물통계학, 심리통계학 분야는 빈도파. 계량경제학자는 베이즈파가 증가한다. 대체적으로 통계를 이용하려는 사람이 경제와 투자쪽이라면 베이즈쪽에 대한 공부를 해야 한다. 우리는 증거로 통계를 설명해야 한다. 막연하 추측이나 경험에 따른 통밥이 아니라 통계 리터러시로 분석하고 구별할 줄 알아야 자신에게 다가온 통계를 정확하게 볼 수 있다. 아무리 누가 이렇다 저렇다 이야기해도 아무런 의미가 없다. 볼 줄 아는 눈이 없으면 떠 먹여주는 숟가락이 사라지면 어쩔 것인가.


직접 통계를 만들어 구축하고 제대로 된 숫자를 만들지 몰라도 수없이 많은 사람들과 기관에서 던져주는 통계중에 제대로 된 가치있는 신호를 제대로 받아들일줄 알아야 한다. 이를 위해 <통계의 힘>과 같은 책을 통해 최소한 구분할줄만 알아도 큰 힘이 된다. 이 책은 소장해서 몇 번은 다시 들쳐보며 완전히 내 것으로 만들어야 한다. 점점 빅 데이터를 통한 통계가 중요해진 시점에 필요충분이 아니라 무조건이다.



까칠한 핑크팬더의 한 마디 : 중반 이후에는 약간 이해가 어려웠다.

친절한 핑크팬더의 한 마디 : 이런 책은 구입해서 읽어야지.



함께 읽을 책

http://blog.naver.com/ljb1202/220390424176

세상에서 가장 쉬운 통계학 입문 - 나에겐 어렵다
세상에서 가장 쉬운 통계학 입문 작가 고지마 히로유키 출판 지상사 발매 2009.12.17 리뷰보기 현대 사회가...
blog.naver.com
본문으로 이동

http://blog.naver.com/ljb1202/220356061224

왜 전문가들은 금융위기를 몰랐나? - 신호와 소음
신호와 소음 작가 네이트 실버 출판 더퀘스트 발매 2014.07.11 리뷰보기 <신호와 소음>책의 리뷰...
blog.naver.com
본문으로 이동

http://blog.naver.com/ljb1202/161615620

돈 좀 굴려봅시다 - 인구구조를 통한 채찍효과로
돈 좀 굴려봅시다 작가 홍춘욱 출판 스마트북스 발매 2012.06.20 리뷰보기 경제에 대한 책이 참 많이 나와 있다. 투자에 관한 책...
blog.naver.com
본문으로 이동



댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo