파이썬으로 웹 크롤러 만들기 - 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법, 2판
라이언 미첼 지음, 한선용 옮김 / 한빛미디어 / 2019년 3월
평점 :
장바구니담기


<파이썬으로 웹 크롤러 만들기>, 라이언 미첼 지음, 한선용 옮김, 한빛미디어, 2020



기후위기, 플라스틱 문제 등 환경관련 규제 변화와 다른 기업의 동향을 파악하고자 뉴스를 자주 검색한다. 키워드 중심으로 뉴스를 클리핑해주는 구글알리미를 사용하지만, 클리핑 되지 않는 언론사가 많고, 중복된 기사들도 많아 유용하지 않을 때도 있다.


다른 기업의 보도자료 등을 통해 동향을 파악하기도 하는데, 일일이 접속해 찾는 게 만만치 않다. 그럴때마다 내가 원하는 새로운 소식을 자동으로 모아주는 프로그램이 있다면 얼마나 좋을까 생각하게 된다.


웹 크롤러, ‘웹에서 원하는 정보와 자료를 수집하는 프로그램을 알게 되었다. 자료를 찾는 시간을 획기적으로 줄여 줄 것으로 기대되었다. 그렇게 <파이썬으로 웹 크롤러 만들기>를 펼쳤다.



필자가 웹 스크레이핑에 대해 이야기할 때마다 누군가는 항상 이렇게 묻습니다.
구글 같은 기업은 어떻게 만들어지나요?”
필자의 대답은 항상 같습니다.
첫째, 수십억 달러를 모아 세계에서 가장 훌륭한 데이터센터를 만들고
세계 곳곳에 배치합니다. 둘째, 웹 크롤러를 만듭니다.”(67)


이론적으로는, 웹 스크레이핑이란 데이터를 수집하는 작업 전체를 말하며,
API
를 활용하는 프로그램이나 사람이 직접 웹 브라우저를 조작하는 방법만
제외하면 어떤 방법을 쓰든 상관없습니다.(7)


몇 가지 예외를 제외하면, 무언가를 브라우저에서 볼 수 있다면
그것은 파이썬 스크립트로도 접근할 수 있습니다.
스크립트로 접근할 수 있다면 데이터베이스에 저장도 가능합니다.
데이터베이스에 저장할 수 있다면 그 데이터로 할 수 있는 일은 무궁무진합니다.(8)


업무 시간을 획기적(?)으로 줄여 줄 웹 크롤러를 찾았지만, ‘웹 크롤러를 만들기 위한 더 큰 벽을 만났다. 파이썬을 깊이 이해하지 못한 상황에서 이 책을 이해하기에는 어려움이 있었다. 다만 웹 스크레이핑의 개념 등 개괄적인 내용과 함께 웹 스크레이핑과 관련한 법률적, 윤리적 문제에 대해서도 이해할 수 있는 계기가 되었다.


파이썬이 아닌 몇번의 클릭과 드로잉으로 만들 수 있는 프로그램이 개발되길 간절히 기대해 본다.


* 해당 도서는 출판사로부터 무상으로 제공받았으며, 제 주관에 따라 솔직하게 작성했습니다.



댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo