다양한 인터넷 데이터 수집 자동화와 윈도 프로그램과 연동한 문서 업무 자동화와 웹 크롤링과 문서 자동화를 위한 파이썬 필수 문법을 통한 정형 데이터 관리 기법과 시각화를 위한 기법 그리고 주식매매 자동화하기에 대한 내용을 담고 있는 “슬기로운 파이썬 생활 데이터 싹쓰리 & 업무자동화”는 현재 파이썬과 R 등을 이용한 소프트웨어 개발과 빅데이터와 인공지능 관련 교육을 왕성하게 하고 있는 서진수와 손기동 두 분 공동 저자의 오래된 경험과 노하우가 결집된 저술 결과물이라고 할 수 있다.
이 두 분의 저자는 유튜브로 강의 영상을 제공하고 있으며, 데이터 수집 자동화와 문서 작업 자동화 그리고 주식 매내 자동화의 내용을 본 도서에 담고 있으며, 웹 크롤링을 위한 환경설정과 자동 검색 구현하기로 시작하고 있는 이 책은 각 장마다 연습 문제를 제시하여 독자로 하여금 실력 강화를 돕고 있으며 서진수 저자님의 응원 메시지가 전해지고 있다.
이 책은 파이썬을 이용한 데이터 수집과 업무자동화를 위한 사람들을 대상으로 쓰여졌으나 파이썬을 이용한 웹 크롤링에 대한 부드러운 소개가 필요한 프로그래머에게도 매우 유용할 것으로 생각합니다. 이러한 것은 사회 과학과 컴퓨터 과학이 협업(collaboration)하는 책으로 볼 수 있으며, 사회과학에서 필요로 하는 크롤링의 사회 과학과 컴퓨터 과학과 관련된 주제가 골격이라는 것을 알 수 있습니다. 전반적인 텍스트 마이닝의 시각화를 구현하기 위한 구체적인 지침을 제공하는 책을 찾고 있다면 이 책은 만족시키지 못할 수 있지만, 그러나 이를 위한 작업이 필요로 하는 분은 반듯이 이 책을 먼저 학습하시는 것이 좋을 것 같습니다.
또한 이 책은 크롤링을 이전에 해본 적이 없는 사람들을 위한 쉬운 접근 방법을 제공하고 있어 그에 따른 높은 가치가 있으며, 비전문가인 일반인도 이해하기 쉬운 방식으로 크롤링과 데이터 수집 그리고 업무자동화를 위한 컴퓨터 과학 측면도 다루고 있습니다.
내가 이 책을 손에 넣게 된 이유는 관심이 있는 분야의 학습을 희망했기 때문입니다. 물론 파이썬이라는 오픈소스를 알게 된 지는 많지는 않지만 조금 오래됩니다. 그 이유는 오래전 우연한 기회에 워드클라우드(wordcloud)와 사회 관계망을 보게 되면서 관심이 있던 차에 인터넷에서 쉽게 할 수 있는 방법들을 이용하여 직접 해 보니 호기심을 충족시킬 수는 있었지만 정작 내가 필요로 하는 것은 사용이 제한적이며 무엇보다도 크롤링(crawling)이 우선되어야 함을 알게 되어 쉽지는 않겠지만 적지 않은 나이(60대 중반)에 도전하여 공부하기로 하였습니다.
사실 내가 필요로 하는 이러한 문제를 해결할 수 있는 통계 패키지는 무수히 존재하는 것으로 알고 있습니다. 다만 내가 필요로 하는 것들은 금전적 비용을 지불하여야만 접근 가능하여 이왕이면 오픈 소스 프로그램을 이용하여 직접 공부하여 내가 필요로 하는 수준으로 해보는 것도 나쁘지 않을 것 같아 Python과 R을 공부하기로 하여 저자 중 한 분인 서진수 저자님의 책을 구매하였다. 구매한 도서는 Python뿐만 아니라 R 프로그램을 포함하여 다수가 있다.
그중에 먼저 구매한 것이 “R까기”, R라뷰 : R을 활용한 데이터 분석 입문편 –을 보다가 잘 안 되고 내가 원하던 수준으로 확장하기 위해 도서관을 이용하기도 하며 “왕초보! 파이썬 배워 크롤러 DIY 하다!” “완친파 웹크롤러 대마왕편” 그리고 많은 번역서를 비롯하여 크롤링과 텍스트 마이닝을 위한 도서를 구매하여 이 책들과 씨름을 하며 많은 시간을 보낸 덕분에 Python뿐만 아니라 R을 이용하여 크롤링하고 이러한 것을 이용하여 워드클라우드(wordcloud)와 사회연결망 분석(SNA)도 나름 만족할 만하지는 않지만, 일반 서적에서 제공하는 수준으로 시각화가 가능하다고 생각이 드나 뭔가 허전하여 이 책을 손에 넣게 된 것이다.
물론 일반인인 우리가 매일 밥을 먹다가 어쩌다 간혹 라면 또는 짜장면을 먹는 횟수 정도로 이와 같은 프로그램을 운용한다면 명령어들이 잊혀지지는 않겠지만 일 년에 한두 차례씩 프로그램을 돌리는 정도이니 잊어버리기 일쑤이며 할 때마다 새롭기 그지없다. 이러한 이유로 우리가 필요로 하는 적합한 도서를 옆에 두고 필요할 때에 살펴보는 것이 중요하다는 생각이 듭니다.
지난해 여름 컴퓨터 윈도우 10 프로그램에 버그 현상이 자주 나서 새로이 설치 후 Python과 R을 설치하지 않았는데 이 책을 구하고 나서 가볍게 읽어보고 책에 적혀 있는 데로 Python 설치 후 시작하였다. 그런데 어랍쇼이다. 잘 안된다. 처음부터 이 책의 개관과 함께 Anaconda를 설치한 후 뒷부분의 내용을 보니 Python 프로그램 설치하는 안내가 있다. 설치 버전을 3.7.5를 기반으로 하고 있어 삭제 후 교재에서 시키는 대로 동일한 버전을 설치하였다.
왜냐면 혼자 독학하면서 많은 시간을 허공에 져버리는 무수히 허공에 삽질한 경험이 떠올라서 그런가 보다. 경험한 것에 의하면 조금이라도 고생을 적게 하려면 어떤 책(본인이 생각할 때 가장 이상적인 책)을 정하여 공부할 때 버전이 맞지 않게 되는 이유로 인하여 진행이 잘 되지 않는다며, 가끔 정말 가끔 자아를 버릴 수도 있으며, 성격을 버릴 수도 있기 때문이었다.
그런데 또다시 내가 경험할 줄이야 Python 3.7.5를 설치 후 cmd 창을 이용하여 beautifulsoup 명령을 내리니 아름다운 수프가 설치가 안 된단다. 이유는 pip의 패키지를 업그레이드하라는 명령어가 cmd 창에 나타난다. 아 이러한 것이 Python을 설치할 때 구버전을 설치하여 그럴까 아니면 내 컴퓨터에서의 버전 인식 문제일까? 이 문제를 해결하기 위해 다양한 방법을 사용하였으며, 많은 책과 국⦁내외 웹 서핑을 이용하였다(크롬의 번역 앱 이용). 이 문제를 해결하기 위해 또 많은 시간이 소요되어졌지만 무사히 해결되었다.
파이썬으로 크롤링과 데이터 싹쓰리 그리고 업무자동화를 위해 고민하시는 분들은 이 책을 서재에 들여놓고 저자분들이 제공하는 유튜브 영상도 참고하시면서 공부하시면 많이 도움이 될 것 같습니다. 이 책의 본문에서 제공하는 특정한 분야만이 필요로 하시는 분들도 구매하여 보시면 책 내용이 아주 초급은 아니지만 파이썬과 컴퓨터 과학을 잘 모르시더라도 저자분들이 알려주시는 대로 책장을 넘기시면 목표한 수준으로 쉽게 접근할 수 있어 도움이 될 것 같다.
마지막으로 나의 경우 한가지 아쉬움으로 남는 것은 이 두 분의 저자분들이 독자를 위한 많은 도움을 주기 위해서인지 친절하게 교재 내용의 실습을 쉽게 할 수 있도록 유튜브 강의와 함께 예제 파일 소스를 제공하고 있는데 파이썬을 공부할 때 함께 하면 도움이 되는 주피터 노트북에 소스 코드를 담고 있다는 것이다. 내가 익숙하지 못한 것도 있지만 이러한 내용이 메모장이나 다른 것을 통해 제공하면 어떨까 하는 아쉬움으로 다가온다. 물론 본 도서에는 초보자를 위한 주피터 노트북 설치와 사용 방법에 대해 많은 것을 소개하고 있어 어려움 없이 독학으로 학습할 수 있을 것 같다.
다양한 인터넷 데이터 수집 자동화와 윈도 프로그램과 연동한 문서 업무 자동화와 웹 크롤링과 문서 자동화를 위한 파이썬 필수 문법을 통한 정형 데이터 관리 기법과 시각화를 위한 기법 그리고 주식매매 자동화하기에 대한 내용을 담고 있는 "슬기로운 파이썬 생활 데이터 싹쓰리 & 업무자동화"는 현재 파이썬과 R 등을 이용한 소프트웨어 개발과 빅데이터와 인공지능 관련 교육을 왕성하게 하고 있는 서진수와 손기동 두 분 공동 저자의 오래된 경험과 노하우가 결집된 저술 결과물이라고 할 수 있다.