파이썬을 활용한 베이지안 통계 - 동전 던지기부터 월드컵까지 다양하게 배우는 데이터분석, 2판
앨런 B. 다우니 지음, 권정민 옮김 / 한빛미디어 / 2022년 6월
평점 :
장바구니담기


그동안 어렴풋이만 알고 자세히는 모르고 있던 <확률과 통계>를 공부하는 중이다. 사건, 검정, 유의수준, 포아송, t-분포....익숙하면서도 낯선 단어들. 물론 고등학교 때 수II에 있는 확률통계 부분을 엄청 열심히 공부한 적은 있다. 미적분도 마찬가지. 그런데 그게 언제적 얘긴지...


머신러닝을 본격적으로 공부하면서 베이지안에 대해서도 정확히 알아야 할 필요성을 느껴서 이 책을 선택했다. 넘파이와 판다스에 능하면 좋지만 그렇지 않아도 상관 없고, 미적분이나 선형대수학 필요 없고 미리 알아둬야 하는 통계적 지식도 없다고 한다. 아니, 얼마나 친절하길래... 대부분은 실생활 문제를 사용해서 설명한다고 하니 기대가 되었다.


시작은 조건부 확률에서 시작해 베이즈 정리를 도출한다. "나에게 초콜릿을 준 사람이 나를 좋아할 확률은?" 영상을 통해 너무나 익숙한 내용이다. 가볍게 통과. 2장은 문제 해결에 필요한 완벽한 데이터를 가지고 있지 못한 경우에 유용한 베이즈 정리에 대한 이야기다. 중간중간 제시하는 퀴즈들이 궁금증을 일으키면서도 정답을 맞히면 뿌듯함을 주고, 못 맞히면 "왜?"하며 더 생각하게 만들어 준다. 퀴즈가 단순해서 부담이 없다. 한 장을 마무리할 때마다 나오는 연습문제도 재미있다.


3장은 분포. 시각화 도구를 이용해 쉽게 분포표를 그려보기는 했는데 empiricaldist 라이브러리를 사용해보는 것은 처음이다. 데이터에 기반한 경험적(empirical) 분포를 나타내는 데 사용하는 이 라이브러리는 책 전반에 걸쳐서 사용된다. 주피터노트북을 설치하고 실습을 하도록 안내하고 있지만 구글 colab에서도 잘 된다.


4장에서는 비율추정. 이항분포, 베이지안 추정, 삼각사전분포(처음에 무슨 말인가 했다....사전분포가 삼각형 모양을 이룬다는 말이었다), 이항가능도함수(역시 영문표기가 더 이해가 잘 된다), 마지막으로 베이지안 통계. 베이지안 통계에 대한 설명은 아주 간략하다.


5장은 수량 추정에 관한 이야기. 이제부터 집중을 해야 할 시간이다. 사전확률의 분포 변화에 따라 사후확률의 분포가 어떻게 변할지 확인해보고 사전확률 개선하는 방법들을 생각해 본다.


책은 20장 근사베이지안 계산까지 단계적으로 나아간다. 그 내용을 여기에 다 정리할 필요까지는 없을 것 같다. 우선 책이 아주 두꺼운 편은 아닌데(인덱스까지 412페이지) 20개의 장으로 나뉘어 있다. 자잘한 주제로 나누어서 한 가지에 대해서 설명하고 앞으로 나아가는 방식이다. 각 장마다 뒷부분에 내용을 정리해 놓았고 연습문제도 있다. 문제들 하나하나가 재미있다. 통계학 책에서 많이 봤을 법한 문제들도 많이 있다. 이렇게 자잘하게 나누어 설명한 부분이 내가 보기엔 이 책의 최대의 미덕인 것 같다. 2~7줄 정도의 코드를 실행해 가면서 진행을 하기 때문에 지루하지는 않지만 상대적으로 코드에 대한 설명은 많지 않다. 그냥 해당 기능을 수행하는 메소드가 무엇이 있는지 소개하는 정도로 보인다. 확률 통계 문외한 보다는 그래도 어렴풋이라도 어느 정도 감을 잠을 수 있는 사람이 보기에 적당한 책인 것 같다.


한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

#한빛미디어 #한빛아카데미 #파이썬 #베이지안 #리뷰



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo