파이썬 머신러닝 판다스 데이터 분석
오승환 지음 / 정보문화사 / 2019년 6월
평점 :
구판절판



이 책은 파이썬(Python) 프로그래밍 언어와 공개 라이브러리(Library)를 사용하여 다양한 데이터 분석과 머신러닝 관련 프로그래밍을 학습할 수 있는 책이다.

책의 내용과 구성은, 2가지 주요 주제인 데이터 분석과 머신 러닝에 관해 7개 부분에 걸쳐 다루고 있다: 판다스 입문; 데이터 입출력; 데이터 살펴보기; 시각화 도구; 데이터 사전 처리; 데이터 프레임의 다양한 응용; 머신 러닝 데이터 분석.

참고로, 이 책에서 사용하는 프로그램 예제는 파이썬 3.7 기반이고, 사용하는 파이썬 기반 라이브러리는 예를 들면 아나콘다와 판다스처럼 대부분이 공개 무료 버전이다. 책 속에서 사용되는 데이터 파일과 예제 파일들은 출판사 홈페이지나 저자의 블로그에서 다운로드 받을 수 있도록 공개되어 있다.

 

 

먼저, 저자도 서문에서 밝혔듯이 이 책의 구독자 대상은 파이썬 언어의 사용 경험자를 대상으로 하고 있다. 왜냐하면 이 책의 주된 내용은 파이썬 언어 자체가 아니라 파이썬 언어 기반 라이브러리 함수를 활용하여 다양한 데이터 분석을 수행하는 프로그램 코드를 작성하는 방법에 초점이 맞춰져 있기 때문이다: 어떻게 보면 독자 대상을 한정하고 있지만 이것이 이 책의 장점이자 강점이라고 볼 수 있다.

만약 라이브러리 함수를 이용하지 않고 순전히 독자적으로 함수를 제작하여 사용한다면, 시간과 비용, 노력이 상당히 소모될 것이다: 대표적인 것이 외부 데이터 입출력과 시각화 기능이다. 특히 엑셀(excel) 파일로부터 텍스트 데이터를 읽어 들이거나 가공하여 저장한다든지, 지도 데이터 파일을 조작하는 기법은, 오피스 도구인 엑셀의 본래 기능을 뛰어넘어 확장하는 역할을 할 정도로 강력하다.

, 액셀 도구의 일부 기능을 거의 유사하게 구현하는 프로그램을 만들어 낼 수 있게 된다: 예를 들어, 액셀 데이터 형태로 주어지면, 얼마든지 데이터를 가공 처리하여 그래프나 도형의 다양한 시각적 형태로 변환시키는 것이 가능해진다. 더 나아가 중간에 생략된 데이터 값이 있는 경우, 액셀에서는 오류로 처리되는데, 이를 라이브러리 함수로써 보정하고 일괄 처리하여 통계 자료로 만드는 방법도 소개하고 있다.

기계 학습의 경우, 신경망까지는 아니더라도 데이터 집합을 활용하여 패턴을 구축하고 분류 모형을 만들어 볼 수 있는 내용을 다루고 있어서 기본적인 기계학습 개념을 이해하는데 도움이 될 수 있다.

전반적으로, 파이썬과 공개 라이브러리를 사용하여 데이터 분석을 수행하는 데 필요하면서도 유용한 기법들을 다루고 소개하는 책이라는 생각이 든다



*** 이 글은 리뷰어스 클럽의 소개로 출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다. *** 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo