빅데이터 시대, 올바른 인사이트를 위한 통계 101×데이터 분석 - 데이터는 다뤄도 통계까지 배울 시간은 없었던 당신에게
아베 마사토 지음, 안동현 옮김 / 프리렉 / 2022년 10월
평점 :
장바구니담기


2018년부터였던가.. 빅데이터, DT 등이 화두가 되었다.

일하고 있는 회사에서도 DT와 관련하여 다양한 연수를 진행하고 있고, 나 또한 새로운 흐름에 필요한 인재가 되고자 파이썬을 배우고 있다.

회사 데이터를 엑셀로 추출한 후 파이썬을 통해 분석해보고 있다.

그러나 늘상 접하는 문제점은 기껏 데이터를 가공하고, 파이썬의 통계 라이브러리를 활용해 분석해도 이를 해석할 수 없었다는 것이다.

R스퀘어가 의미하는 바가 무엇인지 10년 전에 배운 기억이 나는데... 영향력을 미치는 결정계수가 산출되었지만 이 수치를 믿을 수 있는 것인지, 다중공선성이 있는 것 같다고 뜨는데 다중공선성이란 것이 무엇인지.. 이게 문제라면 어떻게 해야 다중공선성이란 걸 없앨 수 있는지 등. 뭔가 아주 오래전에 접했던 기억은 나지만, 그게 무엇인지 도저히 기억이 나지 않는 개념들...

회사에 통계학을 전공하시고, 입사 후에도 업무와 무관하더라도 계속 해당 분야를 공부해 오신 분이 있어, 질문을 드릴 수 있었지만, 결국엔 나 스스로 통계학을 다시 공부해야만 극복할 수 있는 문제임을 깨달았다. 대학교에서 경제학을 공부하며 통계학을 조금 접한 적이 있지만, 여전히 나에게 통계란 접할 때마다 새로운 분야였고, 이제는 꼭 정복해야만 하는 분야라고 생각했다. 그런 갈증을 느끼던 나를 위해서인지, 마침 프리렉에서 훌륭한 책을 출간했다.



이 책의 후면에는 "통계는 접한 적 있지만, 어렵다고 느끼거나 아직 명확히 알지 못하는 사람", "지금부터 데이터 과학 공부를 본격적으로 시작하려는 사람" 등에게 강력히 추천한다고 쓰여 있다. 그게 바로 나다.

내가 대학생일 때 공부했던 시뻘건 "현대통계학"이란 교재에 비해 가독성이 훨씬 좋았다. 이제 와서 궁금해진 건, 왜 그때 교수는 이 시뻘건 이해도 안되는 책을 교재로 선택했을까?이다. 그 책 대신 이 프리렉 책을 교재로 선택했으면, 그동안 느껴왔던 통계학에 대한 막연한 거부감을 피할 수 있었지 않았을까?

아무튼 각론하고, 이 책을 한 번 쭉 읽고 느낀 장점을 서술해보겠다



① 읽기 편하다.

대학생 때 접했던 통계학 교재는 한 줄 한 줄을 읽어내기가 힘들었다. 그 딱딱한 문체와 불필요할 정도로 한자가 섞여 있는 것이 읽는이로 하여금 정신적 고통을 느끼게 했다. 그런데 이 책은 통계학을 한 층 부드럽게 전해준다. 그림도 칙칙한 80년대 다이어그램이 아닌, 깔끔하고 직관적인 이미지와 그래프를 사용하여 눈에 잘 들어온다. 일단 편한 마음으로 한 번 쭉 읽어봤는데, 다독을 통해 체득해가기 좋은 책이라고 생각한다.



② 데이터 분석을 위한 통계학이다.

기존 통계학 교재들은 순수 통계학을 위한 이론이었던 것 같다. 확률로 시작해 ~ 분포 ~ 추정/검정 ~ 회귀분석 ~ 시계열로 끝나는 경우가 대다수였던 것 같다.

이 책은 순수 영역에서 머물지 않고, 보다 빅데이터 분석에 필요한 영역까지 다루는 것으로 보인다. 재현성, 인과와 상관의 구분, 베이즈 통계, 주성분분석 및 기계학습 등 빅데이터 분석기사 필기 공부 과정에서 학습했던 부분을 이해하기 편하게 서술했다. 딱딱한 빅데이터 분석기사 필기 교재를 보기 전에 이 책부터 보았다면, 좀 더 쉽게 시험을 준비하지 않았을까라고 생각해본다.

데이터 분석을 시작해보고 싶은 분들께 이 책을 추천하고 싶다.


# 이 책은 책과콩나무카페를 통해 프리렉으로부터 책을 지원받아 읽고 작성한 후기입니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo