-
-
Do it! 데이터 분석을 위한 판다스 입문 - 전면 개정판 ㅣ Do it! 시리즈
다니엘 첸 지음, 시진 옮김 / 이지스퍼블리싱 / 2023년 11월
평점 :

파이썬 공부하면
파이썬 문법을 배우고
데이터 분석을 배우게 된다
데이터 분석을 공부할 때 반드시 사용하게 되는 게 판다스다
판다스는 전 세계적으로 유명한 데이터 분석 라이브러리다
https://pandas.pydata.org/
pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now! Getting started Install pandas Getting started Documentation User guide API reference Contributing to pandas Release notes...
pandas.pydata.org
파이썬 공부를 하면서 데이터 분석 공부를 소홀히 해서
다시 공부해야겠다고 생각했던 차에
10일 완성 [Do it! 데이터 분석을 위한 판다스 입문] 책을 알게 됐다
책의 목차는 이렇다
그렇다면 판다스는 왜 필요할까?
판다스는 데이터 분석용 오픈 소스 파이썬 라이브러리로
데이터 프레임과 시리즈라는 두 가지 새로운 자료형을 제공하며, 다양한 데이터를 불러올 수 있고
판다스를 활용해 불러온 데이터를 분석할 수 있는 것이다
그래서 데이터 분석에 판다스가 필요하다
책은 아나콘다 설치부터 시작한다
여러분이 아나콘다를 몰라도
설치방법부터 판다스 실습을 위한 주피터 노트북 사용 방법까지 데이터 분석 초보자를 위해
책은 시작한다
그렇게 판다스 실습을 위한 준비가 끝나면
본격적으로 데이터 셋 불러오기를 시작한다
데이터를 불러오려면 판다스 라이브러리부터 불러와야 한다
import pandas
df = pandas.read_csv('../data/gapminder.tsv', sep='\t')
위 코드를 보고
'저게 뭐야? 코드를 모르겠는데?'라고 생각된다고 해도 실습하는데 전혀 상관없다
책이 데이터 분석 초보자를 위해 자세히 설명하고 있다
괜히 판다스 입문 책이 아니다
각 챕터는 각 주제에 맞게 데이터 분석 흐름대로 작성돼 있다
책의 가장 기본인 2장은
데이터 셋을 불러오고
데이터를 추출하고
기초 통계를 계산한다
3장은 나만의 데이터를 만들어 데이터를 다루는 방법에 대해 배우고
4장은 그런 데이터를 시각화해서 보기 좋게 만든다
데이터는 있으나 그걸 시각화하지 못한다면
다른 사람들에게 설명해 주기 어렵기 때문에 시각화가 굉장히 중요하다
5장은 데이터 처리에 대해서 공부하는데
초보 개발자가 다루는 데이터는 공부하기 편하게 깔끔하게 처리된 데이터들이 많지만
실제 현업에서 사용되는 데이터들은 깔끔하지 않는 데이터들이 많다
예를 들어 나는 나라 이름으로 usa, korea, japan을 얻고 싶은데
united states , 코리아, 일본
이런 식의 데이터들이 있을 수 있다
이럴 경우 내가 일일이 united states는 usa로
코리아는 korea로
일본은 japan으로 데이터를 변경해 줘야 한다
예시처럼 데이터 처리하기 깔끔한 데이터로 만들어 주기 위해 5장에서 깔끔한 데이터 만드는 방법을 공부한다
이렇게 [Do it! 데이터 분석을 위한 판다스 입문] 책은
데이터 분석에 위해 필요한 필수 요소들을
모두 집어넣었다
그렇다면 필수 요소들이니 이 책을 몇 달 동안 봐야 할까?
그건 아니다
이 책은 5일 완성 코스와 10일 완성 코스를 추천하고 있다
책을 모두 외우면 좋지만
암기력이 좋은 사람이 아닌 이상 책에서 추천하는 코스대로 빠르게 공부하고
기억나지 않을 때마다 꺼내보는 걸 책도 나도 추천한다
우리는 해야 할 게 너무 많기 때문에
다양한 걸 빠르게 여러 번 보는 게 효율적이다
초보 개발자들은 공부해야 할 것들이 많고
개발은 하나의 흐름이라고 생각하기에
파이썬을 활용해 판다스 라이브러리를 통해
데이터를 분석하고, 데이터를 정제하고, Matplotlib 등으로 시각화하고
결론을 내고
앞으로 더 효과적인 방법이 있을지 고민해 봐야 한다
이렇게 많은 것들을 해야 하기에
데이터 분석 하나만 주야장천 파기보다는
(물론 본인의 꿈이 데이터 분석가 라면 얘기가 다르다 그런 분들에게는 데이터 분석 공부가 최우선이다)
초보 개발자들은 일단 다양한 것들을 빠르게 봐야 한다고 생각한다
개인적으로는 [Do it! 데이터 분석을 위한 판다스 입문] 책의 5일 완성이 아닌
10일 완성을 추천하고
10일 동안 바짝 익히고
다양한 실습 코드를 따라 해보며 판다스가 어떻게 쓰이는지 빠르게 아는 게 중요할 것 같다
여러분의 데이터 분석은 [Do it! 데이터 분석을 위한 판다스 입문] 이 책으로 충분할 것 같다
본 서평은 이지스퍼블리싱에서 서적만 제공받은 자유로운 형식의 서평입니다