데이터를 부탁해 - 세상을 움직이는 데이터의 힘 한빛 리얼타임 Hanbit Realtime 149
전익진 지음 / 한빛미디어 / 2019년 4월
평점 :
장바구니담기







감사하게도 한빛미디어의 나는리뷰어다 이벤트에 당첨되었다. 심지어 택배비까지 공짜였다. 제목만 보고 끌려서 신청한 책 '데이터를 부탁해' 를 수령했다. 책을 몇장 들춰보고 깨달았다.

망.했.다

나는 학창시절에 단 한번도 통계나 확률을 좋아해본 일이 없었다. 심지어 싫어했다. 이 책을 어떻게 읽을지조차도 암담했다. 하지만 놀랍게도 이 책을 읽는데는 하루정도면 충분했다. 형관펜 하나 들고 약간 헷갈리는 내용들만 체크하면서 읽었고 앞장으로 다시 돌아가지도 않았지만 그렇게 어렵지도 않았다. 책 내용이 쉽냐고 묻는다면 

그것은 절대로 아닙니다...... 다 처음 보는 단어들입니다.....

독립변수, 종속변수를 일상생활에서 볼 일은 절대로 없다. 하지만 이 책은 그 어려운 단어를 여러가지 일화와 예제를 통해서 간단하게 설명해준다. 책을 크게 3개의 파트로 나눈다면 배경 / 진화 / 변이 3가지 파트이다. 저자가 굉장히 신경써서 파트를 나눴다는 점을 알 수 있는데 앞에서 여러가지 일화와 배경을 통해서 데이터의 분석기법들을 물흐르듯이 설명하고 진화로 넘어간다. 하지만 난 진화로 넘어왔다는 점을 딱히 신경쓰지 않아도 되었다. 왜냐면 앞에서 나온 개념들이 어려웠지만 재미있었기 때문이다.

내가 얻고자 하는 상황을 설정한 것은 대립가설, 이와 반대되는 상황인 얻고자 하는 진실과는 반대의 상황을 설정한 귀무가설이다. 대립가설이든 귀무가설이든 해당 가설이 맞고 틀린지는 누구나 공감할 수 있어야 한다.

회귀분석은 두 요인 간의 인과관계를 파악해 미래를 예측하고 설명하는 대표적인 데이터 분석 기법이다. 여기서 두 요인이란 독립변수와 종속변수를 의미하는데 예를 들자면 독립변수는 [내 연봉이 상승하면 나는 쇼핑을 전보다 더 많이 할까?] 에서 내 연봉이 상승하면을 담당하고 있다. 종속변수는 당연히 나는 쇼핑을 전보다 더 많이 할까에 해당한다. 이 독립변수와 종속변수에는 대칭관계가 있으며 그 대칭관계를 상관이라고 부른다.

상관분석은 위에 예로 든 내 연봉과 내 쇼핑의 양의 관계를 이야기한다. 상관분석은 저 두가지 변수의 관계를 설명하지 인간관계는 설명하지 않는다.

통계는 확률이다. 평균과 분산은 연속 확률 분포이며, 정규 분포를 대표하는 값이다. 평균과 분산을 모수라고 부른다. 정규분포가 아니며 데이터의 표본 수가 적거나 부족하고 데이터가 독립적인 통계의 개념은 비모수이다. 모수는 추출한 표본 간의 평균 차이를 중심으로 분석한다. 비모수는 평균이 아닌 서열 또는 특정 기준을 중심으로 분석한다. 

이 내용들을 남들에게 손쉽게 설명할 수 있냐고 질문한다면 아니오다. 책을 펼쳐서 뒤적이면서 설명해야 할 것 같다. 하지만 책 한번 읽고 이 내용들을 대강이라도 이해할 수 있었냐고 묻는다면 대답은 절대적으로 네 이다. 정말 재미있고 쉬운 예제들이었으니까.. 

나는 항상 이야기하지만 통계가 싫다. 그리고 모르겠다. 하지만 이 책을 읽으면서 DMBS안의 데이터를 활용해서 여러가지 개발을 하면서 내가 과연 정말 제대로 된 통계적 기획 하에서 개발을 하고 있는게 맞는지에 대한 약간의 의문이 생겼다. 이 책의 최우선 장점은 통계알못이라도 술술 읽히는 책이라는 점이다. 수많은 예제와 학자들에 대한 배경 설명을 통해서 저자가 얼마나 많은 자료 조사를 했는지 알 수 있었다. 200장에 지나지 않는 얇은 책 내용속에 깔끔하면서 함축적으로 정리하는 것 조차도 대단하다는 생각이 든다. 


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo