-
-
한권으로 파이썬 데이터 사이언스 입문 AtoZ
문용준.문성혁 지음 / 잇플ITPLE / 2020년 1월
평점 :
최근 몇년간 빅데이터에 대한 논의가 활발하고 국가차원에서도 공공데이터를 공개하고 민간부분에서 데이터활용을 활성화하고자 얼마전 국회에서 데이터3법을 통과시켰습니다. 앞으로 데이터를 활용도는 더욱 심화될 것이고 데이터를 다루는 인력도 더욱 많이 필요할수 밖에 없습니다. <한권으로 파이썬 데이터 사이언스 입문 A to Z>는 4차산업혁명의 혈액인 빅데이터를 다루는 데이터사이언스 입문에 필요한 프로그램을 연마하도록 꾸며져있습니다. 데이터사이언스를 공부하는 프로그램은 여러가지가 있습니다. 통계적 접근을 할때는 R도 많이 사용하고 루비나 자바로도 가능합니다. 하지만 가장 일반적인 프로그램은 파이썬이고, 이 프로그램이 미국 등 선진국에서 쉽게 접근이 가능하여 지배적 입지를 다지고 있습니다. 이러한 파이썬을 사용하여 데이터분석에 효율성을 높이도록 저자는 신경을 썼다고합니다.
저자는 문용준으로 SK CNC 수석연구원이십니다. 한국 최고의 프로그램교육기관인 패스트캠퍼스에서 파이썬강의를 하고 계시고 이번에 파이썬초급교재를 출간하셨습니다. 공저자 문성혁은 아토큐브(주) CTO라고 합니다. 유튜브에 이 책에대한 강의가 현재 1,2장이 올라와 있는데 계속 올린다고 합니다. 동영상강의와 함께 공부를 하면 이해가 더욱 빠를 겁니다.
파이썬을 사용하는 개발툴은 아나콘다 주피터노트북을 사용하므로, 주피터노트북의 설치와 실행을 설명합니다. 여유가 있는 분들은 유료툴인 파이참을 사용하기도 하지만 주피터노트북은 무료툴임이 매우 강점이죠. 그리고 내장함수, 숫자처리, 문자열과 편하게 사용할 수있는 넘파이모듈과 판다스자료구조를 학습합니다 넘파이와 판다스모듈만 잘 숙지를 해도, 데이터처리의 상당부분이 편해집니다. 그리고 시각화로 matplotlib모듈이용법과 seaborn과 pyecharts모듈도 다룹니다. 데이터분석은 데이터전처리, 분석, 시각화로 이루어집니다. 책의초반에 이 3단계의 전반적인것을 다뤄줍니다.
7장부터 본격적으로 수학개념을 다룹니다. 시그마, 지수,로그, 함수처리 등이죠. 파이썬 책중에서 수학을 다루지 않는 책이 많습니다. 어렵다는 이유겠죠. 저자들은 이런 금기(?)를 입문이지만 망설이지 않습니다. 어쩌면 속이지 않는 것일수있습니다. 제대로 데이터분석을 하려면 수학은 피할수가 없는 통로입니다.(파이썬에는 수학기능이 넌파이모듈에 들어있습니다.) 데이터분석을 하느냐 안하느냐는 수학을 하느냐 안하느냐와 같아보입니다. 과장일까요? ㅎㅎ
수학중에서 '확률'과 '선형대수'를 다룹니다. 특히, 선형대수는 통계대학원에 들어갈때 필수 시험과목으로 알고 있듯이, 데이터처리에서 벡터와 행렬을 계산하는 것이 매우 중요한데, 이를 선형대수라고 합니다. 넘파이모듈을 사용하여 1차원배열, 2차원배열, 다차원배열, 내적과 외적,역행렬 등을 공부합니다.
후반에는 까다롭다는 날짜처리방법과 실전예제로 공공데이터분석과 금융데이터분석법을 일부 따라해 봅니다. 여기서 제시하는 코딩방법을 다른 예제에도 충분히 적용할수있기에 초보적인 분석도 시도할수 있게 해줍니다.
파이썬은 '컴퓨터언어'라고 표현을 합니다. 우리가 영어에 매우 큰 어려움을 겪었듯(저만 그랬나요? ㅠㅠ) 파이썬도 영어와 동일하게 컴퓨터용이지만 '언어'이기에 문법이 존재합니다. 이 문법이 익숙해야 제대로 데이터전처리, 분석, 시각화를 능숙하게 할수 있습니다. 그러나 이 문법을 다른 책들은 어렵다고 꼭 해야 하는것을 감추는 경우가 있습니다. 하지만 <데이터사이언스 입문 A TO Z>저자들은 피하지 않고 정면으로 다룹니다. 이게 벽이라면 파이썬 공부에 대해 생각해 봐야 할겁니다. 괜히 시간버리않고 딴일을 하는것이 더욱 좋을 수가 있기 때문이죠. 무사히 이 책을 다 익혔다면 말 그대로 입문일겁니다. 생각보다 파이썬은 다양한 영역에서 사용이 됩니다. 데이터분석은 한 분야일뿐이죠. 딥러닝, 그래픽,금융 등 자신의 취향에 맞게 관련분야로 나가면 됩니다. 이 책이 그 기틀이 될것이라 믿습니다.