Do it! 데이터 분석을 위한 판다스 입문 - 전면 개정판 Do it! 시리즈
다니엘 첸 지음, 시진 옮김 / 이지스퍼블리싱 / 2023년 11월
평점 :
장바구니담기





파이썬 공부하면


파이썬 문법을 배우고


데이터 분석을 배우게 된다


데이터 분석을 공부할 때 반드시 사용하게 되는 게 판다스다


판다스는 전 세계적으로 유명한 데이터 분석 라이브러리다


https://pandas.pydata.org/

pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now! Getting started Install pandas Getting started Documentation User guide API reference Contributing to pandas Release notes...

pandas.pydata.org


파이썬 공부를 하면서 데이터 분석 공부를 소홀히 해서


다시 공부해야겠다고 생각했던 차에


10일 완성 [Do it! 데이터 분석을 위한 판다스 입문] 책을 알게 됐다


책의 목차는 이렇다






그렇다면 판다스는 왜 필요할까?


판다스는 데이터 분석용 오픈 소스 파이썬 라이브러리로


데이터 프레임과 시리즈라는 두 가지 새로운 자료형을 제공하며, 다양한 데이터를 불러올 수 있고


판다스를 활용해 불러온 데이터를 분석할 수 있는 것이다


그래서 데이터 분석에 판다스가 필요하다


책은 아나콘다 설치부터 시작한다


여러분이 아나콘다를 몰라도


설치방법부터 판다스 실습을 위한 주피터 노트북 사용 방법까지 데이터 분석 초보자를 위해


책은 시작한다


그렇게 판다스 실습을 위한 준비가 끝나면


본격적으로 데이터 셋 불러오기를 시작한다


데이터를 불러오려면 판다스 라이브러리부터 불러와야 한다


import pandas 


df = pandas.read_csv('../data/gapminder.tsv', sep='\t')

위 코드를 보고


'저게 뭐야? 코드를 모르겠는데?'라고 생각된다고 해도 실습하는데 전혀 상관없다


책이 데이터 분석 초보자를 위해 자세히 설명하고 있다



괜히 판다스 입문 책이 아니다


각 챕터는 각 주제에 맞게 데이터 분석 흐름대로 작성돼 있다


책의 가장 기본인 2장은


데이터 셋을 불러오고


데이터를 추출하고


기초 통계를 계산한다


3장은 나만의 데이터를 만들어 데이터를 다루는 방법에 대해 배우고


4장은 그런 데이터를 시각화해서 보기 좋게 만든다


데이터는 있으나 그걸 시각화하지 못한다면


다른 사람들에게 설명해 주기 어렵기 때문에 시각화가 굉장히 중요하다


5장은 데이터 처리에 대해서 공부하는데


초보 개발자가 다루는 데이터는 공부하기 편하게 깔끔하게 처리된 데이터들이 많지만


실제 현업에서 사용되는 데이터들은 깔끔하지 않는 데이터들이 많다


예를 들어 나는 나라 이름으로 usa, korea, japan을 얻고 싶은데


united states , 코리아, 일본


이런 식의 데이터들이 있을 수 있다


이럴 경우 내가 일일이 united states는 usa로


코리아는 korea로


일본은 japan으로 데이터를 변경해 줘야 한다


예시처럼 데이터 처리하기 깔끔한 데이터로 만들어 주기 위해 5장에서 깔끔한 데이터 만드는 방법을 공부한다


이렇게 [Do it! 데이터 분석을 위한 판다스 입문] 책은


데이터 분석에 위해 필요한 필수 요소들을


모두 집어넣었다


그렇다면 필수 요소들이니 이 책을 몇 달 동안 봐야 할까?


그건 아니다


이 책은 5일 완성 코스와 10일 완성 코스를 추천하고 있다


책을 모두 외우면 좋지만


암기력이 좋은 사람이 아닌 이상 책에서 추천하는 코스대로 빠르게 공부하고


기억나지 않을 때마다 꺼내보는 걸 책도 나도 추천한다


우리는 해야 할 게 너무 많기 때문에


다양한 걸 빠르게 여러 번 보는 게 효율적이다


초보 개발자들은 공부해야 할 것들이 많고


개발은 하나의 흐름이라고 생각하기에


파이썬을 활용해 판다스 라이브러리를 통해


데이터를 분석하고, 데이터를 정제하고, Matplotlib 등으로 시각화하고


결론을 내고


앞으로 더 효과적인 방법이 있을지 고민해 봐야 한다


이렇게 많은 것들을 해야 하기에


데이터 분석 하나만 주야장천 파기보다는


(물론 본인의 꿈이 데이터 분석가 라면 얘기가 다르다 그런 분들에게는 데이터 분석 공부가 최우선이다)


초보 개발자들은 일단 다양한 것들을 빠르게 봐야 한다고 생각한다


개인적으로는 [Do it! 데이터 분석을 위한 판다스 입문] 책의 5일 완성이 아닌


10일 완성을 추천하고


10일 동안 바짝 익히고


다양한 실습 코드를 따라 해보며 판다스가 어떻게 쓰이는지 빠르게 아는 게 중요할 것 같다


여러분의 데이터 분석은 [Do it! 데이터 분석을 위한 판다스 입문] 이 책으로 충분할 것 같다



본 서평은 이지스퍼블리싱에서 서적만 제공받은 자유로운 형식의 서평입니다


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo