파이썬 라이브러리를 활용한 데이터 분석
웨스 맥키니 지음, 김영근 옮김 / 한빛미디어 / 2023년 5월
평점 :
장바구니담기


#파이썬라이브러리를활용한데이터분석 #웨스맥키니 #김영근 #한빛미디어 #한빛미디어출판사 #파이썬 #데이터분석 #통계 #빅데이터 #넘파이 #라이브러리

페이스북 게시물을 보다가 한빛미디어에서 <파이썬 라이브러리를 활용한 데이터 분석(3판)> 이라는 책의 서평 이벤트를 하고 있었다. 데이터분석에 관심이 많고 공부하고 싶은 마음이 커서 서평 이벤트를 신청했고 당첨되어 책을 받게 되었다.

책의 저자-웨스 맥키니 (Wes Mckinney)

미국 내슈빌에서 활동하고 있는 소프트웨어 개발자이자 기업가. 2007년 MIT 수학과 학부 과정을 마치고 코네티컷주 그리니치에 있는 AQR 캐피털 매니지먼트에서 금융 분석가로 근무했다. 복잡하고 느린 데이터 분석 도구에 실망해 2008년 파이썬을 배우면서 판다스 프로젝트를 시작했다. 파이썬 데이터 커뮤니티의 활발한 일원이며 데이터 분석, 금융, 통계 계산 애플리케이션에서 파이썬 사용을 독려하고 있다.

공동 창업한 DataPad가 2014년 클라우데라(Cloudera)에 인수된 이후 빅데이터 기술에 집중하기 시작했고, 아파치 소프트웨어 재단의 프로젝트인 아파치 애로(Apache Arrow)와 아파치 파케이(Apache Parquet)의 PMC(프로젝트 관리 위원)로 합류했다. 2018년 R스튜디오(RStudio), Two Sigma Investments와 협력해 아파치 애로 개발에 중점을 둔 비영리단체 Ursa Labs를 설립했다. 2021년에는 기술 스타트업인 Voltron Data를 공동 설립해 현재 최고 기술 책임자로 일하고 있다.

책의 역자-김영근

애플 II에서 BASIC으로 처음 프로그래밍을 시작했고, 장래 희망은 항상 프로그래머라고 말하고 다니다 정신 차리고 보니 어느덧 20년 경력을 훌쩍 넘긴 개발자가 되었다. 리눅스 커뮤니티에서 오랫동안 활동했으며 임베디드 환경에서부터 미들웨어, 웹, 스마트폰 애플리케이션에 이르기까지 다양한 분야에서 개발했다. 아시아 최초의 파이썬 소프트웨어 재단의 이사로 활동했으며 2014년 ‘파이콘 한국(PyCon Korea)’을 처음 시작했다. 스타트업 CTO로 재직 중이며 소프트웨어 마에스트로의 기술 멘토이기도 하다. 현재의 장래 희망은 장학 재단 설립이다. 한빛미디어에서 『리눅스 시스템 프로그래밍(개정2판)』(2014), 『고성능 파이썬』(2016)을 번역했다.

책의 목차

CHAPTER 1 시작하기 전에

1.1 다루는 내용

1.2 데이터 분석에 파이썬을 사용하는 이유

1.3 필수 파이썬 라이브러리

1.4 설치 및 설정

1.5 커뮤니티와 콘퍼런스

1.6 이 책을 살펴보는 방법

CHAPTER 2 파이썬 기초, Ipython과 주피터 노트북

2.1 파이썬 인터프리터

2.2. IPython 기초

2.3 파이썬 기초

2.4 마치며

CHAPTER 3 내장 자료구조, 함수, 파일

3.1 자료구조와 순차 자료형

3.2 함수

3.3 파일과 운영체제

3.4 마치며

CHAPTER 4 넘파이 기본: 배열과 벡터 연산

4.1 다차원 배열 객체 ndarray

4.2 난수 생성

4.3 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수

4.4 배열을 이용한 배열 기반 프로그래밍

4.5 배열 데이터의 파일 입출력

4.6 선형대수

4.7 계단 오르내리기 예제

4.8 마치며

CHAPTER 5 판다스 시작하기

5.1 판다스 자료구조 소개

5.2 핵심 기능

5.3 기술 통계 계산과 요약

5.4 마치며

CHAPTER 6 데이터 로딩과 저장, 파일 형식

6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

6.2 이진 데이터 형식

6.3 웹 API와 함께 사용하기

6.4 데이터베이스와 함께 사용하기

6.5 마치며

CHAPTER 7 데이터 정제 및 준비

7.1 누락된 데이터 처리하기

7.2 데이터 변형

7.3 확장 데이터 유형

7.4 문자열 다루기

7.5 범주형 데이터

7.6 마치며

CHAPTER 8 데이터 준비하기: 조인, 병합, 변형

8.1 계층적 색인

8.2 데이터 합치기

8.3 재구성과 피벗

8.4 마치며

CHAPTER 9 그래프와 시각화

9.1 맷플롯립 API 간략하게 살펴보기

9.2 판다스에서 시본으로 그래프 그리기

9.3 다른 파이썬 시각화 도구

9.4 마치며

CHAPTER 10 데이터 집계와 그룹 연산

10.1 그룹 연산에 대한 고찰

10.2 데이터 집계

10.3 apply 메서드: 일반적인 분리-적용-병합

10.4 그룹 변환과 래핑되지 않은 groupby

10.5 피벗 테이블과 교차표

10.6 마치며

CHAPTER 11 시계열

11.1 날짜, 시간 자료형과 도구

11.2 시계열 기초

11.3 날짜 범위, 빈도, 이동

11.4 시간대 다루기

11.5 기간과 기간 연산

11.6 리샘플링과 빈도 변환

11.7 이동창 함수

11.8 마치며

CHAPTER 12 파이썬 모델링 라이브러리

12.1 판다스와 모델 코드의 인터페이스

12.2 patsy로 모델 생성하기

12.3 statsmodels 소개

12.4 사이킷런 소개

12.5 마치며

CHAPTER 13 데이터 분석 예제

13.1 Bitly의 1.USA.gov 데이터

13.2 무비렌즈의 영화 평점 데이터

13.3 신생아 이름

13.4 미국 농무부 영양소 정보

13.5 2012년 연방선거관리위원회 데이터베이스

13.6 마치며

APPENDIX A 고급 넘파이

A.1 ndarray 객체 구조

A.2 고급 배열 조작 기법

A.3 브로드캐스팅

A.4 고급 ufunc 사용법

A.5 구조화된 배열과 레코드 배열

A.6 정렬 더 알아보기

A.7 넘바를 이용해 빠른 넘파이 함수 작성하기

A.8 고급 배열 입출력

A.9 유용한 성능 팁

APPENDIX B IPython 시스템 더 알아보기

B.1 터미널 키보드 단축키

B.2 매직 명령어

B.3 명령어 히스토리 사용하기

B.4 운영체제와 함께 사용하기

B.5 소프트웨어 개발 도구

B.6 IPython을 이용한 생산적인 코드 개발 팁

B.7 IPython 고급 기능

B.8 마치며

책의 특징

이 책은 본격적인 데이터 분석을 수행하기 전에 파이썬과 필수 라이브러리에 관해서 설명하고 파이썬을 설치하는 방법을 알려준다. 파이썬을 설치하고 튜플, 딕셔너리 등과 같은 기초문법을 알려주고 파이썬 라이브러리인 넘파이, 판다스를 배울 수 있게 도와주고, 그 후 데이터에 대해서 배운다. 그다음 그래프를 그려서 데이터를 시각화하는 방법을 배운다. 시계열도 배워본다. 마지막으로 무비 렌즈의 영화 평점 데이터 분석을 해보고 신생아 이름 분석, 미국 농무부 영양소 정보, 연방선거관리위원회의 데이터를 분석해 본다.

책의 장점

이 책은 파이썬을 활용한 데이터 분석의 기초 프로그래밍 실력을 키우는 데 초점을 맞춰서 초보자도 천천히 열심히 따라 하다 보면 데이터 분석 실력이 늘어나는 것을 느낄 수 있다. 처음 배우는 입문자와 익숙하지 않은 초보자들에게 유용할 수 있는 책이라는 생각이 든다. 파이썬의 여러 라이브러리를 배울 수 있어서 파이썬에 대한 응용지식을 더 키울 수도 있다. 그리고 책의 마지막 파트에 부록이 있는데 부록에서는 배열 계산을 위한 넘 파이 라이브러리를 더 자세히 알아보고 ndarray 자료형의 내부 구조를 상세히 알아보고 고급 배열 조작 기법과 알고리듬을 살펴볼 수 있고, 부록 2장에서는 주피터 노트북이나 콘솔에서 사용할 수 있는 IPython 시스템의 세부 기능을 살펴볼 수도 있다.

책의 후기

이 책을 읽고 프로그래밍하면서 파이썬의 기초를 다시 배워서 잘못 알고 있었던, 몰랐었던 기초지식을 다시 배울 수 있었다. 또 다양한 파이썬 라이브러리를 사용하면서 다양한 파이썬의 기능을 익힐 수 있었다. 다른 책으로 파이썬을 공부할 때, 이 책에서 배운 지식으로 쉽게 배울 수 있을 것 같다. 이 책에서 배운 데이터분석 지식을 응용해서 내가 새로운 데이터분석을 해봐야겠다. 그렇게 하면 나의 데이터분석 실력을 더 키울 수 있을 것으로 생각한다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo