-
-
코딩 자율학습 잔재미코딩의 파이썬 데이터 분석 입문 - Pandas, Plotly 사용부터 생성형 AI 활용법까지 한 권으로 배우는 데이터 분석 입문 ㅣ 코딩 자율학습
데이브 리 지음 / 길벗 / 2025년 4월
평점 :
[출판사로부터 도서를 제공받아, 작성자의 주관적인 견해를 토대로 작성하였습니다.]
요즘 각광을 받는 AI(인공지능) 분야는 많은 데이터를 학습시키는 것에서부터 시작된다. 또한 사회 각 분야에서 데이터가 홍수처럼 나오고, 이 데이터들을 전처리, 분석하여 시각화를 하면서 자기의 분야에서 필요한 정보를 획득하거나 대응 방안을 창출한다.
이처럼 데이터 분석 분야는 무궁무진하지만, 막상 이 분석을 하기 위한 도구를 배우는 것은 약간 뜬구름 잡는 듯한 느낌이 많았다. 내용이 어려운 경우가 많았기 때문이다.
이 책은 꼭 필요하지만 어렵지 않다는 느낌을 많이 준다. 이 책의 지은이가 문과의 감성으로 재미있게 코딩을 배우고, 이 책을 통해 코딩을 자율학습하게 할 수 있도록 만든 흔적을 여기 저기서 맛볼 수 있다. 지은이가 일본어학과를 졸업하고 뒤늦게 개발 분야에 뛰어들어서 그런 영향이 있는 것 같다.
저자에 대해 더욱 많은 것을 알고 싶다면 이 책을 읽기 전에 이 사이트들을 확인해보자.
잔재미코딩 사이트
https://school.fun-coding.org
잔재미코딩 유튜브 채널
https://www.youtube.com/@fun-coding

‘코딩 자율학습 잔재미코딩의 파이썬 데이터 분석’
1장은 데이터 분석의 과정에 대한 이론 소개 및 데이터 분석 도구로 활용되는 Pandas에 대한 소개로 구성되어 있다. 처음 입문하는 사람은 1장 부분을 자세하고 읽고 진도를 배우기 바란다. 실제로 이러한 방식을 토대로 개발을 진행하는 경우가 많기 때문이다.
2장은 아나콘다 설치법과 다루는 법에 대해 안내한다. 아나콘다는 데이터 분석에 쓰이는 프로그램들을 돌리고 관리할 수 있는 프로그램이다. 이번에는 아나콘다에 의헤 컨트롤되는 주피터 노트북을 사용할 예정이다.
3장은 이 책에서 사용하는 파이썬 프로그램에 대한 간단한 소개가 이뤄진다. 만약 이 부분을 이해할 수 없다면, 시중에 있는 파이썬 프로그램에 대한 기초를 소개하는 책들(예시: 코딩 자율학습 나도코딩의 파이썬 입문)을 다시 공부하고 오길 바란다.
4장부터는 본격적으로 Pandas 문법에 대해 알아본다. 4장은 Pandas의 기초 중 기초인 import부터 배우게 될 것이다. 5장은 pandas에서 사용하는 기능에 대해 본격적으로 배우게 될 것이다. head, tail, describe, shape 등의 메소드(method) 등 데이터 분석을 위한 기초 스킬을 배우게 될 것이다.
6장은 이 책을 이해하기 위한 관문이 될 것이다. 배워야 할 스킬도 늘고 갑자기 어려운 난이도도 체감하기 때문이다. 결측치 확인 및 제거, 데이터 타입 바꾸는 법, 데이터 인덱스, 열 이름 등을 바꾸는 데이터 재구성하기, 중복 데이터 처리 등의 데이터 정제하기, 데이터프레임을 병합하는 데이터 병합하기에 대해 설명한다. 이 부분을 확실히 이해하고 자기 것으로 만들어야 한다. 후에 나오는 데이터 분석 실습을 할 때 중요하게 사용되는 기능들이기 때문이다.

173쪽부터 174쪽까지 실습 HR Analytics 데이터셋의 결측치 대체하기 중 일부

173쪽부터 174쪽까지 실습 HR Analytics 데이터셋의 결측치 대체하기 실습 결과
(지우고 2_2 )
6장까지가 데이터 분석을 위한 Pandas의 기능 체험 시간이었다면. 7장부터는 실제 데이터를 가지고 데이터 전처리를 하고, plotly 라이브러리를 이용하여 시각화하는 방법을 알게 될 것이다. 7장에서는 영화 평점 데이터의 기본 분석에 대해 다루게 될 것이고, 8장에서는 서울특별시의 아파트값에 대한 데이터를 가지고 분석해보는 시간을 가질 것이다.
9장은 두 번째로 중요한 장이다. 바로 plotly 라이브러리에서 쓰이는 차트 및 기능을 익혀보는 시간이다. 예전부터 데이터 분석에 쓰이는 Matplotlib이 아니라 새로운 시각화 라이브러리를 사용하게 되는 것이다. plotly에 대한 기본적인 기능과 설명부터 히스토그램, 막대 차트, 꺾은선 그래프 등 기본 차트 그리는 방법에 대해서 알게 될 것이다.

271쪽 꺾은선 그래프 그리기

271쪽 꺾은선 그래프 그리기 실습 결과
10장은 본격적으로 한 회사의 마케팅 수치에 대한 분석이 들어가게 된다. 마케팅 관련 분석을 진행하기 때문에 평균 구매 전환율, 획득 비용 등 마케팅 전문용어가 나오니 모르시는 분들이 있다면 개념을 익히고 보는 것을 추천한다. 그리고 10장부터는 시각화에 대한 실습도 같이하게 된다.
11장은 7장, 8장, 10장에서 다루었던 데이터를 통해 심화 과정을 밟게 된다. 상자 그림(box plot), 히트맵과 imshow(), 상관계수 구하기(corr()), 열 분리하는 방법, 와이드 포맷 데이터를 롱 포맷 데이터로 변환하기, 그래프 커스터마이징, 그리고 피벗 테이블과 파이함수까지 실제로 데이터 분석에서 많이 쓰이는 Pandas의 기능을 체험해 보게 될 것이다.
이 책은 본문 내용에 대해서 곳곳에 ‘1분 퀴즈’가 있다. 본문 내용을 제대로 이해하고 잘 쓸 수 있는지를 확인할 수 있는 일종의 ‘쪽지 시험’과 같은 부분이다. 이 1분 퀴즈를 잘 할 수 있으면 이 책의 내용에 대해서 잘 소화한 것으로 봐도 무방할 정도로 다양한 문제가 나온다.

249쪽 1분 퀴즈
그리고 장이 끝날 때마다 ‘셀프체크’가 있다. 주로 조건을 주고 프로그래밍을 하는 문제이다. 처음에 힘들지도 모른다. 이제 본문 내용을 간신히 소화했는데, 셀프체크에 나오는 문제가 어렵게 느껴지기도 하기 때문이다. 하지만 이것을 자기의 힘으로 풀어내면 그 쾌감은 더욱 증폭될 수 밖에 없다. 못 풀어도 너무 실망하지 말자. 책 맨 뒤에 셀프체크에 대한 답들이 있다. 정 못하겠으면 일단 정답을 여러 번 따라해서 내용을 소화해도 좋다.

312쪽 셀프체크

312쪽 셀프체크 2 실습 결과
이 책의 부록은 A와 B 두 부분으로 나뉜다. 부록 A는 학습 로드맵과 진로에 따른 학습 로드맵, 직종과 직군별 데이터 분석 활용 사례에 대해 다룬다면, B는 데이터 분석 분야에서 생성형 AI를 어떻게 다룰 것인가에 대해 설명한다. 생성형 AI는 요즘 핫하게 뜨고 있는 인공 지능 분야이기 때문에 알아두면 매우 편리하게 사용할 수 있을 것이다.

385쪽 ChatGPT 질문

385쪽 질문에 관한 ChatGPT 결과 일부

385쪽 질문에 대한 copilot 결과 일부
이 책의 특징은?
Pandas의 경우 교재가 얼마나 쉽냐에 따라서 어렵게 배울 수도 있고 쉽게 배울 수도 있다. 전문적인 용어는 꼭 필요할 때만 쓰였다고 생각한다. ‘내용이 너무 쉽게 써 있나?’ 라는 생각이 절로 들 정도였다. 내가 책을 읽을 때 막힘 없이 이 책을 읽을 정도였다. 보통 이런 책은 어려운 영어가 난무하다는 생각이 들 때가 있는데 이번에는 그나마 덜 하다는 생각이 들었다.
그렇게 어렵지 않은 내용으로 실전에서 쓸 수 있는 많은 데이터 셋을 사용한다. 그것도 실생활에서 유용하게 쓸 수 있는 것들이다. 영화 평점, 서울시 아파트 관련 데이터, 한 회사의 마케팅 데이터셋 등 업무에서도 많이 사용할 수 있는 데이터들이다. 여기서 쌓은 실력을 토대로 다른 분야의 데이터 분석도 잘 할 수 있게 될 것이다.

240쪽 데이터셋을 얻는 방법
이 책의 경우에는 아나콘다를 통해서 주피터 노트북을 활용하여 Pandas에 대해 공부하게 될 것이다. 하지만 이 책 6장 처음부분에 소개된 데이터 셋 설정방법을 통해 캐글(Kaggle)에 대해서도 소개한다. 캐글을 통해서도 이 책의 코딩을 해보는 것도 추천한다.
이 책에서 시각화를 위해서 plotly 라이브러리를 주로 사용한다. 하지만 시중에서 파는 Pandas 관련 시각화 책에서는 기존에 많이 쓰이던 Matplotlib을 많이 쓸 수도 있다. Matplotlib 관련 지식이 필요하면 관련 책으로 연습하길 바란다.
Pandas 정복을 응원하며..
실제 필드에서 쓰기 위해 배우는 사람도 있을 것이고, 빅데이터분석기사 실기 등 자격증 공부를 위해 Pandas를 배우는 수험생도 있을 것이다. 처음엔 많이 어려워할 수 있다. 특히 groupby의 문법이라던가 columns를 두 개 이상 같이 써야 할 때는 이해가 잘 안될 수 있다.
그래도 이 책을 믿고 반복해서 코딩 연습을 하기 바란다. 쉬우면서 풍부한 예를 갖춘 이 책을 열심히 반복하면서 공부하다 보면, 어느 새 Pandas가, groupby가, 그리고 그 외에도 많은 메쏘드들이 친구처럼 다가올 것이다.
이 책에서 새롭게 배운 plotly를 통해 쉽게 시각화를 할 수 있는 방법을 배운 것은 알찬 수확이었다. 이 책을 통해 시각화에 대해서도 눈을 뜰 수 있는 독자가 되길 바란다.