-
-
파이썬 데이터 과학 통계 학습
황보현우.정지현 지음 / 정보문화사 / 2021년 5월
평점 :
몇년전부터 빅데이터가 각광을 받으면서 데이터과학에 대한 관심이 높아졌습니다. 학교에서 이것을 전공으로 배우는 학생들은 문제가 없겠지만 미디어를 통해 데이터과학에 대한 호기심이 생겨 공부하고 싶은 대상에서는 막막할 수도 있는 것이 바로 이 분야입니다. 더우기 이공계가 아니고 인문계출신은 그 막막함이 더욱 배가 될 겁니다. <파이썬 데이터과학통계학습>은 비전공자를 포커싱해서 '데이터과학'을 관통하는 통계학습과 기계학습에 관한 프레임워크를 익히도록 구성했습니다. 물론 이 책을 기반으로 좀더 세부적인 두꺼운 책으로 옮겨갈수있도록 모델링의 핵심부분을 맛볼 수있는 점이 장점입니다.
저자는 한남대 글로벌IT경영학과 황보현우교수입니다. 연대 행정학과를 나오셔서 동대학 글로벌비즈니스학과 박사를 하시고 코오롱베니트, 하나벤처스 등의 현장경력도 있는 분으로 빅데이터분야에서 활발한 활동을 하고 있습니다. 공저자 정지현님은 IBM에서 엔지니어로 근무하시고 연대에서 빅데이터로 석사를 하셨습니다.
책은 파이썬의 기본 문법과 지도학습으로 대표되는 회귀와 분류, 비지도학습방법인 그룹화와 차원축소를 다룹니다. 파이썬은 아나콘다라는 툴을 사용합니다. 아나콘다에서 제공하는 주피터노트부은 많은 데이터를 처리하는데는 문제가 있지만 교육이나 단계별로 결과를 보면서 공부를 하는데는 강점이 커서 많은 교재에서 주피터노트북을 주 에디터로 사용하고 있습니다. 주피터노트북의 사용법을 친절하게 알려주지않는 부분은 있지만 450페이지의 분량에 모델링방법까지 다루고 있기에 어쩔수없는 부분이긴 합니다. 파이썬 문법의 기초인 자료형과 변수부터 제어문, 함수 모듈까지 다루고 넘파이와 판다스도 기본사용법을 알려줍니다. 약간은 이런 부분을 학습하는 것이 지루할 수도 있는데 모두 직접 타이핑을 해야 습득속도가 높아질겁니다. (다운받아서 볼 수있는 코드부분은 따라 쳐보지 않더라도 꼭 하나씩 작동을 시켜서 공부해야 합니다. )
지도학습은 회귀와 분류라는 방법을 이용합니다. 딥러닝에서는 지도학습을 입력값과 출력값을 알려주고 학습하는 방법이죠. 대표적인 방법인 회귀는 결과값(종속변수)이 양적변수입니다. 이곳에서 통계학의 대표적인 방법이 나오죠. T검정, 분산분석, 상관분석, 선형분석을 하게 되고 이것이 대부분 예측을 할 때 사용을 많이 합니다. 분류는 카이제곱, 로지스틱 회귀, 포아송, 서포트벡터머신을 설명합니다. 통계학에서는 서포트벡터머신을 배우진 않죠. 이는 컴퓨터의 기계학습을 분류방식에 도입한 것으로 '초평면'이라는 개념을 알아야 하지만 설명은 좀 아쉽네요. 하지만 '지도학습'이라는 다른 전문책을 보면서 익혀야 하는 부분입니다. 이 책에서는 이론숙지보다는 문제에 활용할 수있는 '실습'부분은 꼭 해보시면 이해를 높일 수있습니다. 분류의 의사결정나무와 앙상블기법은 지난 4월인가 있었던 제2회 빅데이터분석기사 필기문제에도 나왔던 분야입니다. 의사결정나무는 분류의 대표적인 방법이죠. 논리학에서도 많이 사용하고 맥킨지에서 사용하는 문제정의방법으로도 많이언급됩니다. 그것을 기계학습방법으로 구현한겁니다. 앙상블모형은 다수모형을 분류 예측하여 종합하는 의사결정방법입니다. 대표적인 방법인 배깅(데이터를 조절하는 방법)을 통해 실습을 시행합니다.
비지도학습은 군집분석과 주성분분석이 대표적이고 군집분석은 K-평균을 실습합니다. 실습데이터는 IRIS라는 데이터셋을 통해 전처리방법과 군집결과를 시각화로 검토해봅니다. 차원축소는 주성분분석과 요인부분에 사용되는 비지도학습입니다. 차원축소가 재미있는 것이 빅데이터시대에 발생하는 문제를 해결하는 방법이라는 겁니다. 통상적으로 변수보다 관측치가 많은 것이 정상(저차원0인데 그렇지 못한 경우(고차원)가 종종 발생을 합니다. 그럴때 변수등을 줄여야하는 경우가 발생하는데 바로 차원축소라는 방법이 필요합니다. 이 방식의 주축이 요인분석과 주성분분석을 설명합니다. 요인분석은 변수들의 공통인자를 찾는 것이고 주성분분석은 핵심요인으로 줄여나가는 방식입니다.
<파이썬 데이터 과학 통계분석>은 모델판단을 하는 통계모형을 전반적으로 다뤘습니다. 데이터를 다루다보면 데이터를 수집하고 전처리하여서 모델링을 해야 합니다. 그것의 핵심이 통계학습과 기계학습이고 지도학습과 비지도학습으로 표현했습니다. 파이썬의 기본문법을 전반적으로 살펴보고 본격적으로 지도학습과 비지도학습의 핵심을 다뤄보면서 다른 책을 즉 전문적인 데이터분석책을 깊게 숙지하고 관심을 높일수있는 역할을 충분히 했습니다.
서평은 출판사로부터 본 도서를 무상으로 제공받아 작성했습니다.