파이썬으로 웹 크롤러 만들기 - 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법, 2판
라이언 미첼 지음, 한선용 옮김 / 한빛미디어 / 2019년 3월
평점 :
장바구니담기


크롤링 이란 무엇일까? 이 책을 보기 전, 크롤링이랑 인터넷에서 간단하게 이미지나 원하는 글 정도를 자동으로 긁어 주는 정도라고 생각했다. 하지만 이 책을 보고 크롤링으로 생각했던 것보다 더 많은 것들을 할 수 있다는 것을 알았다. 책의 표지를 보면 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법이라고 작게 적혀있다. 작게 적어 놓은 것을 보면 책을 번역하신 분도 자신이 없으셨던 걸까ㅎㅎ...


책에는 파이썬 소스 코드와 링크 등이 있어서 굳이 한 땀 한 땀 키보드로 코드를 입력하지 않고도 사용할 수 있다. 책 내용은 파이썬과 파이썬 모듈 패키지 등을 사용하여 크롤링을 하는 내용으로, 처음에는 단순한 텍스트부터 책 뒷부분으로 갈수록 CAPTCHA를 자동으로 입력하는 것을 넘어 이미지로 되어 있는 내용에서 텍스트를 읽어 오고 이미지가 저 해상도일 경우 별도의 처리를 한 다음 최대한 정확한 내용을 읽어오는 방법까지도 나와있다. 기대 이상으로 활용도가 많다. 무엇보다 특정 상품의 인터넷 최저가를 찾기 위해 인터넷의 바다를 헤매는 요즘의 나에게 정말 큰 도움이 됐다. 거기다 Mysql에 대한 설명도 있고 설치부터 파이썬과의 연동 방법까지 자세하게 적혀 있다.


책 내용의 난이도는 파이썬을 잘 사용할지 몰라서 그런지 중상 정도로 어려운 편이다. 당연하지만 크롤링이 단순하게 뭔가 한다기 보다 인터넷상에서 웹에 있는 여러 가지 데이터를 가져오는 작업이라 각각 분야에 대한 지식도 필요한 부분이다. 그래서 쉽지는 않지만 기본적으로 제공되는 샘플 코드를 조금씩 수정하다 보면 내가 원하는 결과를 얻는 것은 크게 어렵지 않았다. 크롤링을 배우고 싶어서 인터넷 여기저기를 검색하는 것도 좋은 방법 이긴 하지만, 시간을 단축하고 확실히 익히고 싶다면 이 책으로 공부해 보는 것이 좋을 것 같다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo