파이썬으로 웹 크롤러 만들기 - 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법
라이언 미첼 지음, 한선용 옮김 / 한빛미디어 / 2016년 12월
평점 :
구판절판


이 도서는 파이썬을 기초 수준으로 알고 있는 사람에게 웹 크롤러(Web Crawler)를 만드는 방법을 단계별로 친절하게 알려준다.

1. 왜 읽어야 하나요?

수년 전부터 오픈 웹, 오픈 API 등의 용어가 범람하고 있다. 우리가 알고 있는 각종 포털 및 SNS 사이트부터 공공기관까지 대부분의 웹 서비스 업체는 자신들이 생산하는 데이터를 활용할 수 있는 방법을 제공한다.

참고: 대한민국 정부는 공공기관의 데이터를 민간에게 공개하는 것을 골자로 하는 정부 3.0 이라는 정책하에 공공데이터포털(www.data.go.kr)을 운영하고 있음

그러나 대부분의 경우 오픈 API는 사용이 제한적이거나 우리가 원하는 기능을 제공하지 않는 경우가 많아 해당 사이트에서 제공하는 데이터를 말랑말랑하게 다루기에는 많은 어려움이 있다. 책에서는 이러한 이유를 아래와 같이 소개하고 있다.

  • - 사이트에서 API를 제공하지 않거나 제공할 능력이 없음
  • - 사이트에서 제공하는 API사용에 제한이 있거나 제공하는 데이터 타입이 원하는 형식이 아닐 수 있음

만약 정보의 바다라고 하는 인터넷에서 본인 혹은 기업이 원하는 데이터를 자동으로 수집하고 가공하여 가치를 창조하는 일을 하고 싶다면 이 책은 큰 도움이 될 것이다.

2. 이 책의 장∙단점은 무엇인가요?

우선 이 책은 매우 친절합니다. 최근에 발간된 일부 컴퓨터 서적의 경우 책에서 나오는 각종 실습을 따라하는 데 필요한 환경설정을 다루지 않는 경우가 있었습니다. 그러나 이 책은 파이썬부터 BeautifulSoup 이라는 웹 문서 Parser 설치까지 안내를 합니다. 그리고 부록의 마지막 장에서는 웹 스크래이핑(=웹 크롤러)의 합법성과 윤리를 통해 혹시라도 발생할 수 있는 각종 법적 분쟁에 휘말리지 않도록 안내를 합니다. 그러나 무엇보다도  이 책의 가장 큰 장점은 단계별로 내용을 풀어가는 친절한 설명입니다. 또한, 심화내용을 배우기 원하는 독자를 위해 필요한 경우 레퍼런스를 제공합니다.

단점은 없습니다. 신경쓰이는 번역이나 오타도 발견하지 못했습니다. 최근에 읽었던 전문서적 중 가장 훌륭한 책이었습니다.

3. 총평

이 책은 검색 엔진을 이루는 구성요소 중 핵심 중 하나인 웹 크롤러(Web Crawler)를 만드는 방법을 매우 친절하게 소개합니다. 만약 웹에서 생산되는 다양한 데이터를 수집 및 가공하여 가치를 창조하는 어떤 서비스를 만들고 싶다면 이 책은 훌륭한 시작점이 될 수 있습니다. 웹 크롤러에 관심이 있는 분이라면 후회없는 선택이 될 수 있습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo