한권으로 파이썬 데이터 사이언스 입문 AtoZ
문용준.문성혁 지음 / 잇플ITPLE / 2020년 1월
평점 :
장바구니담기



아찔할 정도로 빠르게 발달하고 있는 IT 분야를 들라고 하면, 아마도 빅데이터, 인공지능 분야라 할 수 있다. 불과 몇 년 전만 해도 머신러닝이나 딥러닝 기술을 이용한 산업 장비 정도가 소개되거나, 자율주행차 보급을 위해 계속 테스트 중이라는 소식 정도였는데, 인공지능이 바둑에서 연달아 사람을 이긴 뒤로, 기하급수로 증식되는 세균처럼 적용 분야가 빠르게 늘어나고 있다. 


보통 많이 적용되는 생산성 향상, 마케팅 분석, 증권거래, 기후 관측, 언어 번역뿐만 아니라, 이제는 군사 작전, 인공지능 드론, 지능형 로보트, 교통 시뮬레이션, 환경 예측 등 다양한 분야에 활용되고 있으며, 최근 보도를 보면, 현재 전 세계적으로 문제가 되고 있는 신종 코로나 바이러스를 캐나다의 블루닷이라는 인공지능 건강 모니터링 플랫폼이 사람보다 먼저 예측했다고 한다.


이렇게 빅데이터, 데이터 사이언스가 여러 곳에서 가시적인 성과를 보이다 보니, 대학 관련 학과에서 필수 과목으로 채택하고 있고, 산업계에서도 데이터 과학 전공자를 많이 찾고 있는 상황이다. 


이처럼 데이터 과학의 중요성이 나날이 높아지고 있는데, 문제는 인공지능이니 데이터처리니 하는 단어만 들어도 뭔가 막연히 어렵게 느껴지는 거처럼, 사실 기술을 이해하는데, 어느 정도 장벽이 존재한다. 기본적으로 프로그래밍 언어도 알아야 하고, 선형대수나 통계와 같은 수학적 지식도 갖춰야 한다. 프로그래밍도 어려워하는 사람이 많은데, 여기에 수학까지 배워야 한다니, 겁먹고 아예 시도도 안 하는 경우가 많다.


비록 배울 것들이 여럿이지만, 그렇다고 처음부터 포기할 필요는 없다. 자기 수준에 맞게 쉬운 거부터 하나씩 차근차근 익히며, 쌓아 나아가면 된다고 생각한다.  그런 차원에서 '한권으로 파이썬 데이터 사이언스 입문 A to Z' 데이터 과학을 기초부터 하나씩 지식과 실력을 쌓고, 실전까지 도전하는데 큰 도움이 되는 책이라 할 수 있다.


이 책은 다양한 분야에서 가장 많이 활용되고 있는 프로그래밍 언어, 파이썬도 배우고, 머신러닝, 데이터 사이언스에 필요한 기초수학과 넘파이, 판다스 모듈에 대해서도 익힐 수 있다. 




'한권으로 파이썬 데이터 사이언스 입문 A to Z'라는 책 제목처럼 입문자, 초보를 위한 수준과 구성으로 되어 있고, 데이터 사이언스에 관심 있는 모든 분을 대상으로 하고 있다. 

그런 만큼 첫 장에는 앞으로 계속 실습에 필요한 아나콘다, 주피터 노트북, 파이썬 모듈 설치부터 다룬다. 화면에 나온 그대로 따라 할 수 있게, 어디를 선택하고 클릭할지 아주 상세하게 알려 주고 있다. 


기본 프로그램 설치가 끝나면, 바로 파이썬에 대한 학습으로 들어간다. 변수와 문법, 함수, 클래스, 문자열 처리가 무엇인지 가볍게 배우고, 데이터 처리에 꼭 필요한 넘파이 리스트와 배열과 좀 더 복잡한 처리에 사용되는 판다스의 시리즈 클래스, 데이터프레임의 사용법을 서로 비교하면서 익힌다. 배열 처리는 데이터 처리의 기본으로 그래프같이 시각화에서도 아주 중요하다. 그러한 만큼 배열은 능수능란하게 다룰 수 있어야 한다.




데이터 사이언스를 익히는데 가장 큰 난관이 될 수 있는 파트가 바로 수학이다. 고등학교 때 그나마 이과였다면, 그래도 친숙한 부분이 많지만, 수포자였다면, 이 부분이 가장 걱정이 될 것이다. 그렇다고 크게 걱정할 필요는 없다. 시그마, 파이 기호가 뭔지도 상세히 알려주고, 지수나 로그를 어떻게 프로그래밍으로 표현하는지도 하나씩 실습하며 배우게 된다. 순열, 조합, 확률분포도 기초부터 배우고, 베이지안에 대해서도 함께 다룬다.


수학 파트에서 좀 난해하게 느껴질 부분은 선형대수 쪽일 것이다. 벡터를 안 배운 사람도 많고, 개인적으로 설명이 너무 압축된 느낌도 있다. 아무리 '한권으로 파이썬 데이터 사이언스 입문 A to Z'이 데이터 과학에 대해 전체적으로 다룬 책이라지만, 책 한 권으로 모든 것을 다 익힐 수는 없다 생각한다. 수학에 대해 좀 이해 안 가는 부분이 있다면, 좀 더 상세히 다룬 책을 참고할 필요는 있다. 


그러나 처음부터 다른 책과 함께 보는 것은 추천하고 싶지 않다. 모르는 파트가 있다면, 일단 넘어가고, 일단 책을 빠르게 일회독해서, 머릿속에 데이터 사이언스의 개념을 세우고, 자신이 모자란 파트가 어딘지 전체적으로 파악한 뒤, 적당한 책을 고르고, 다시 이 책과 함께 보았으면 한다.


책 후반 부는 주로 앞에서 배운 데이터 전처리와 정규화, 그래프, 통계처리 지식을 바탕으로 실제 한국과 미국 등의 공공 데이터를 이용해서 분석하는 방법을 학습한다. 여기에 자연어 기본 처리까지 다루고 있어서, 이를 통해 배운 것들을 다시 점검하고, 실무에서 자신이 목표로 하는 프로그래밍을 제대로 할 수 있는 실력을 키울 수 있을 것이다.


그리고 잇플의 책을 보면, 그룹 스터디나 학원 교재 용도에 맞게 구성되어 있는데, '한권으로 파이썬 데이터 사이언스 입문 A to Z' 역시도 그렇게 구성되어 있어, 혼자 공부하기 힘들다면, 몇 명이서 같이 학습 일정을 짜서 공부하는 것도 좋고, 그룹 스터디가 힘들면, 저자 직강 유튜브 강좌도 현재 진행 중이므로 도움이 될 것이다. 


개인적으로 나름 빠르게 읽어 볼 수 있어서 좋았고, 전체적 데이터를 어떻게 처리하는 것이 좋을지, 머릿속에 그림이 그려지게 하는 책이라 도움이 되었다.

데이터 과학을 익히는 것은 분명 쉽지 않다. 천 리 길도 한 걸음부터라는 옛 속담을 떠올리고 한 걸음, 한 걸음 나아가면, 자신이 원하는 수준에 충분히 이를 수 있을 것이라 생각한다. 그 걸음에 '한권으로 파이썬 데이터 사이언스 입문 A to Z'가 좋은 길잡이가 되어 준 거 같다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo