판다스로 쉽게 배우는 데이터 분석과 시각화
조승근 지음 / 광문각출판미디어 / 2024년 2월
평점 :
장바구니담기



최근 데이터 분석과 시각화는 가장 많이 이슈화되고 있는 영역이고, 데이터 분석가도 각광받고 있는 직업군이다. 데이터 분석은 머신러닝에 활용되기 위한 기초자료이기도 해서 이 분야에 관심이 있는 분들은 데이터 분석에 대한 내용을 알아둘 필요가 있다고 생각한다.


데이터 과학이란 데이터를 연구하여 의사 결정에 도움이 되는 인사이트를 얻는 학문을 말한다. 데이터를 다루는 사람들을 데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가 등으로 구분되는데, 최종 결과물은 다소 차이가 있더라도 데이터를 의미있는 데이터로 변경하기 위해 비어있거나 잘못된 데이터를 가공하고, 수치적인 통계적 데이터를 확인하며, 탐색적 데이터 분석을 통해 시각화하는 공통적인 과정을 거친다고 한다.



데이터를 다루는데 파이썬이 가장 일반적이고 사랑을 받고 있어 이 책에서는 파이썬과 데이터 분석을 위한 numpy, pandas, matplotlib를 활용한 분석과 시각화를 다루고 있다.


2장은 가장 기본이 되는 numpy의 소개와 필수로 알아야 할 메소드를 다루고 있다. numpy에 포함된 메소드만으로도 벡터나 행렬 등 복잡한 계산을 할 수 있고, 통계, 선형대수, 퓨리에 변환등에 많이 사용된다고 한다.




3, 4, 5장에서는 pandas에 대해서 대해서 다룬다. 예전에는 R 프로그래밍 언어가 통계 및 데이터 시각화에 많이 사용되었지만, pandas의 등장으로 파이썬과 함께 pandas패키지를 활용하여 데이터 분석에 많이 활용된다고 한다. 연산 속도와 실행 속도가 빠르고 데이터프레임을 활용한 통계적 수치 계산도 쉽다. 특히 5장에서는 공개 정보 사이트에서 쉽게 데이터를 취득하여 결측치 및 이상치를 제거하고, 데이터프레임을 활용하는 방법은 데이터 분석에서 가장 중요한 부분이니 자세하게 보면 좋을 것 같다.



마지막 6장에서는 다듬어지고 변형된 데이터를 가지고 시각화하는 방법을 소개한다.

pandas의 plot()메소드를 사용하는 방법과, matplotlib 패키지나 Seaborn 패키지를 활용하는 방법을 다룬다. plot()을 통해 그릴 수 있는 차트의 수는 11개이고, matplotlib는 Matlab의 시각화와 아주 유사한 파이썬 패키지이기 때문에 활용도가 높다. Seaborn 패키지도 matplotlib 기반으로 만들어진 라이브러리로 matplotlib보다 간단하지만 미적으로 화려한 그래프와 다양한 색상과 테마들을 제공하고 있다.



책에서 설명하는 각각의 메소드와 실습은 문제의 풀이 과정과 함께 결과가 그림으로 잘 표현되어 있어 이해하기 쉽게 설명되어 있다. 판다스를 활용한 데이터 분석에 관심이 많다면 이 책을 통해 함꼐 실습하면서 배우면 좋을 것 같다.




출판사로부터 도서를 제공받아 작성한 리뷰입니다




#판다스로쉽게배우는데이터분석과시각화 #데이터분석 #데이터시각화 #파이썬 #판다스 #매트플롯 #씨본 #넘파이 #광문각출판미디어 #네이버북유럽카페


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo