파이썬 머신러닝 판다스 데이터 분석 - 개정판
오승환 지음 / 정보문화사 / 2024년 6월
평점 :
장바구니담기












아나콘다를 설치하면, 데이터 분석에 필요한 라이브러리인 판다스와 넘파이가 자동으로 설치되는데, 판다스는 라이브러리의 이름이다. 판다스는 통계와 머신러닝 분야에서 가장 중요한 소프트웨어로, 오픈소스도 무료이다. 판다스는 파이썬을 기본으로 하기 때문에 프로그래밍을 전공하지 않은 사람도 쉽게 따라가며 배우는 것이 가능하다.



판다스: 파이썬의 라이브러리. 데이터 과학의 80~90% 업무를 처리할 수 있고, 데이터과학자에게 기본적이면서도 아주 중요한 도구.






파이썬에는 3가지 자료구조(리스트,튜플,딕셔너리)가 있는데 판다스를 사용해 데이터 프레임(엑셀과 상당히 유사함)을 만들 수 있다. 그런데 엑셀이 있는데 굳이 판다스를 배워야 할까?라는 물음이 생긴다.



 엑셀은 프로그램을 만들 수가 없고, 파이썬으로 프로그램을 만들고 싶을 때, 데이터를 그 안에서 변경하고 싶다면 파이썬이 유용하다. 파이썬은 엑셀 자동화와 관련이 있다. (판다스의 코드로 엑셀 데이터를 전처리를 할 수 있다면 얼마든지 자동화코드들을 사용할 수 있다.) 판다스는 넘파이(숫자 계산에 강력한 퍼포먼스를 보인다.) 를 사용하고 있어서 상당히 빠르다. (교재에서도 입문 기초부터 가르쳐주고 있어, 산술연산:데이터 프레임과 응용: 함수매핑과 연결된  시리즈 객체 매핑에서 확인가능하다.) 만약 직업적으로 수학적으로 계산을 하거나 통계업무를 한다면 파이썬 판다스(판다스 함수가 잘 구성되어 있는 것도 장점) 데이터 분석을 공부하는 것은 좋은 선택일 수 있다. 만약 엑셀을 잘 썼던 사람이라면 판다스 함수를(책의 Part 3에서 확인할 수 있다.) 쓰는 것은 어렵지 않을 것이다.



 





[파이썬 머신 러닝 판다스 데이터 분석] 책은 어느정도 프로그래밍 경험이 있는 파이썬 초 중급자를 위한 책이다. 파이썬 버전 3.10버전을 기준으로 실행한다. 참고할 사항이다. (파이썬 베포판의 실행방법과 라이브러리 설치 확인/ 가상환경 생성을 책의 서두에서부터 설명하고 들어간다.) 파이썬 왕초보라면, [파이썬 머신 러닝 판다스 데이터 분석]의 내용은 다소 어렵게 느껴질 수 있다. 그래서 저자는 파이썬을 처음 접하는 독자라면 파이썬 리스트와 딕셔너리 등의 자료구조와 반복문 조건문 등의 기본 문법에 대한 학습을 먼저 해야 한다고 덧붙인다.








책은 올컬러의 장점과(글자 폰트와 중요도에 따른 색상의 표시들로 집중도를 높인다.) 복잡한 이론 공부보다는 직접 예제코드를 실행하며 실습하는 것이 유용하므로 책에서는 (많은 실습예제와 실행결과들을 확인 할 수 있다. ) 각 설명에는 <여기서 잠깐>란을 두어 실습하며 궁금해질 수 있는 질문들을 요약해 보여주고 있어 이 점 또한 장점이다. 엑셀에서 직접 행과 열이 일대일 대응하며 함수의 옵션을 그대로 사용할 수 있는 변수와 파일경로 함수의 경로 구분자를 자세히 설명한 part 2의 데이터 입출력( 요약통계에서 주목해야 할 내용:EDA활용팁) 부분의 판다스 설명도 좋았다.







특히 강력한 통계 기능을 제공해 데이터 분야에서 많이 사용되는 seaborn의 라이브러리 고급 그래프 도구에 대한 인터페이스의 범주형 데이터도 그래프로 실행결과를 통해 많은 예제로 보여주고 있다. 또 지도 활용을 보여주는 Folium의 라이브러리(지도 위에 시각화를 보여주는 라이브러리): 지도를 직접 만들고 HTML로 저장하고, 직접 웹브라우저에서 실행할 수 있는 스타일을 적용해 마커, 단계구분도까지 표시할 수 있는 방법도 예제로 요약해 주고 있다. 예제코드와 자료 파일은 리포지토리에서 다운로드 가능하고, 저자는 유튜브(판다스 스튜디오) 채널을 운영하고 있다. 











출판사로부터 도서를 제공받아 작성한 리뷰입니다.






댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo