파이썬으로 웹 크롤러 만들기 - 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법
라이언 미첼 지음, 한선용 옮김 / 한빛미디어 / 2016년 12월
평점 :
구판절판


파이썬으로 웹 크롤러 만들기


와, 이책은 정말 술술 읽힌다. 신기하다



요새 내가 관심있던 것이 크롤링 하여 정보를 쌓는것과

그 정보들을 이용하여 챗봇이나, 정보 푸시 또는 서비스 상에 유저에게 여러 정보를 큐레이팅하는 것이었다.


요즘 하고있는 프로젝트에 대한 내용이어서 인지

책의 구성이 알차게 쓰여져 있어서 인지 몰라도 공감도 잘 되고 술술 읽혔다.


크롤링이 어떠한 것인지는 물론 어떠한 원리로 크롤링을 하는 것인지 역시 잘 설명하고 있는데,  여기서는 BeautifulSoap을 가지고 크롤링을 진행한다. (그 유명한 녀석)


또한 단순히 해당 모듈의 사용법을 설명하는 것이 아니라

크롤링 후에 필요한 정규식으로 처리 라든가, 가져온 Document의 탐색, 탐색한 문서 속 정보를 가공, 그리고 저장. 게다가 저장 된 내용을 양질의 데이터로 만들 수 있는  n-gram과 같은 자연어 처리 그리고 이미지에서 텍스트를 추출하는 OCR까지...


얇은 책에 담긴 내용들이 모두 알차서 놀랐다.


물론 책 자체가 얇은 만큼 각 부분 부분들에 대한 심화과정과 같은 깊은 설명이나 예제가 부족한 부분도 있었다.


그러나 이 책은 크롤링의 전체적인 플로우와 기본 설정 및 사용법, 그리고 간단한 실습까지 완벽했던 것 같다.

이것들을 가지고 어떻게 응용하느냐는 독자의 몫이고 그 결정에 대한 방향을 위해 필요한 심화과정들 역시 독자의 몫인 것 같다.


이 책을 읽으면서 그동안 만들던 것의 질이 더 좋아졌고,

그 프로젝트 이외에도 여러 아이디어가 생각나서 아주 기분이 좋았다.


나와같이 이쪽 분야에 대해 관심있는 사람들이 있다면 주저없이 꼭 읽어보라고 권하고 싶다.



크롤링에 관심이 있는 개발자

크롤링이 무엇인지 잘 모르지만 알아보고 싶은 개발자


권하기 힘든 대상

이미 위의 내용들을 어느정도 해본 개발자


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo