데이터 과학을 위한 통계 - 데이터 분석에서 머신러닝까지 50가지 핵심 개념
피터 브루스.앤드루 브루스 지음, 이준용 옮김 / 한빛미디어 / 2018년 10월
평점 :
절판


후기에 앞서 기술서 리뷰이기 때문에 어떤 사람이 리뷰하는지 명시하는 것이 좋을 것 같아 적어보겠습니다.
  • 리뷰어의 스펙
    • R은 들어보기만 하고 해본 적 없음
    • 통계는 고등학교 때 `확률과 통계`과목 이후로 공부한 적 없음
    • 확률은 `확률변수론`만 2020-1학기 에 공부
이 책의 대상 독자는 어느 정도 R을 다뤄 본 사람이며 사실 나는 알맞은 대상 독자라고 할 수는 없었다. R의 기본적인 문법을 알려주기보다는 통계 이론과 개념들을 알려주며 R에서 어떤 식으로 데이터 분석을 할 수 있는 지에 초점이 맞춰져 있다. 앞서 밝혔듯이 본인은 R 왕초보였기 때문에 처음 R을 설치하고 library를 불러오는 등의 기본 사용 방법에 대해서는 구글링하며 배웠다. 다행히 Jupyter notebook(or lab)에서 R언어도 지원해서 어렵지 않게 코딩 환경(conda virenv)을 만들 수 있었던 것 같다. (R Studio로 하지 않았다.) 따라서 본인처럼 Python으로 Jupyter notebook이 익숙하시고 (R이 아니더라도)조금만 코딩에 익숙한 사람이라면 R의 다양한 기능들을 처음 접해보고 흥미를 가지는데 괜찮을 것 같다.
이 책의 장점은 용어 정리 부분이었다. 통계 분야와 데이터 과학의 용어들을 여기저기서 들어보기만 하고 정리가 안되었었기에 가장 도움이 된 부분이다. 특히 용어들이 한자일 경우 유독 어렵게 느껴지고 친숙해지기 어려운데 통계/확률 쪽 용어들이 대부분 그런 것 같다. 또한 같은 말인데 전통 통계 분야에서 말하는 의미와 데이터 과학 분야에서 말하는 용어가 다르거나, 혹은 그 반대로 말은 똑같은데 각 분야의 맥락에서는 다른 의미인 부분들도 짚어볼 수 있었다.
또한 이론을 따라 가다 보면, 가끔 논점이 흐려지고 이 책의 제목을 까먹을 만큼 목적을 읽어버리기 쉬운데 “NOTE”에서 한번씩 “데이터 과학자”의 입장에서 다시 한 번 짚어야 할 부분을 잡아주기도 해서 좋았었다. “더 읽을 거리” section도 있었는데 각 자료들이 좋아 보였지만 1회독 차에서는 일일이 볼 순 없었다. 자연스럽게 n회독 방향을 잡아주었다.
단점이라면 기술서라면 제공하는 github code가 친절하지 않았다. (사실 이건 R 초보자인 본인에게만 해당하는 말일 수 있다.) 책에는 중요코드 5~10줄 내외로 나와있지만 github에는 대단원의 모든 코드가 한 파일에 다 들어가 있었다. Jupyter lab에서 하나씩 찍어 가보며 공부하는 스타일의 독자에게는 불편한 보기였다. 또한 data load 부분도 좀 더 설명이 있었으면 코드를 좀 더 쉽게 따라 칠 수 있지 않았을까라는 아쉬움도 있었다. 하지만 역설적이게도 원본 repository의 불편한 편집을 하나씩 관찰해가며(R을 이해했다고 할 수는 없기에 ‘관찰’이라 하겠다.) 개인 repository 에 정리하니 R에 대해 이해가 더 잘되기도 했었다.(이에 더해 github정리하는 뿌듯함은 덤..:))
전체적인 책 리뷰 만족도는 4/5인 것 같다. ML/DL에 수없이 많은 분야들 중에 <데이터 분석/과학> 쪽은 매번 넘겨짚거나 들어보기’만’하는 수준이었는데 조금은 흔들리는 초석을 다잡은 느낌(?)이었다.
--이 리뷰는 한빛미디어 “나는 리뷰어다” 프로그램을 통해 작성되었습니다--



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo