파이썬으로 웹 크롤러 만들기 - 3판
라이언 미첼 지음, 최경현 옮김 / 한빛미디어 / 2025년 1월
평점 :
장바구니담기


"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."


인터넷 초창기 웹브라우저로 넷스케이프가 큰 인기를 누리던 시절이 있었다. 당시에는 보안 개념이나 기술이 많이 부족했던 시절이라서 걸핏하면, 사이트가 뚫렸다. 우연히 해킹 아닌 해킹을 하는 바람에 그 회사에 전화해서 문제점을 알려준 기억도 난다.


그리고 그때는 멋진 사이트나 관심 있는 내용을 담은 사이트가 있으면, 아예 사이트 전체를 통째로 다 긁어 오는 일이 비일비재했다. 그걸로 어떻게 만들었나 공부하기도 하고, 필요한 정보만 따로 편집해서 보관하기도 했었다. 처음엔 수작업으로 했는데, 나중에 전문 툴이 많이 등장했다. 빅데이터나, 인공지능 AI와 같은 개념이 전혀 없었는데도, 다들 본능적으로 데이터의 가치만큼은 무의식적으로도 느끼고 있었던 거 같다.


이젠 보안 기술이 높아져 어려워진 부분도 많아졌고, 지적 재산권 등 법적인 부분도 따져가며 긁어 와야 하지만, 크게 봤을 때, 현재의 웹 스크레이핑과 별반 차이가 없어 보인다.


지금은 필요한 정보가 있으면, 여기저기 돌아다니지 않고, 바로 인공지능 서비스를 이용하고 있다. 물론 이것도 한계가 있다. 인공지능이 거짓말도 하고, 의외로 학습 안 된 부분도 많이 발견된다. 그렇기 때문에 업무나 나에게 필요한 정보를 맞춤형으로 가져올 수 있어야 한다.



이 방법을 알려주는 책이 바로 라이언 미첼의 '파이썬으로 웹 크롤러 만들기'다. 이 책은 파이썬을 사용하여 원하는 데이터를 가져오는 다양한 방법을 매우 자세히 알려준다. 단순히 방법만 알려주는 것이 아니라, 인터넷의 작동 원리, 즉 네트워킹 구조, HTML, CSS, 자바스크립트 같은 것을 살펴보고, 웹 스크레이핑의 법적 범위도 알아본다. 



법이란 단어를 듣게 되면, 뭔가 불편할 수 있지만, '파이썬으로 웹 크롤러 만들기'가 정리한 내용을 보고 있으면, '웹 스크레이핑을 이런 곳, 이렇게도 써?'하는 몰랐던 사용처와 방법을 알게 해줘서 의외로 재미있는 파트였다.



'파이썬으로 웹 크롤러 만들기'에서 알려주는 웹 스크레이핑 방법은 조금씩 조금씩 확장해가는 점진적인 형태로 알려준다. BeautifulSoup 라이브러리 설치하고, 그것을 정적 페이지 하나 분석에 이용해 보고, 하나의 도메인 그리고 전체 사이트, 인터넷으로 확장시킨다.



이때 중간중간 정규 표현식 같은 파이썬 문법에 대한 것도 다룬다. '파이썬으로 웹 크롤러 만들기'라는 책 제목 때문에 파이썬 기초부터 배우는 것으로 오해할 수 있는데, 이 책은 초중급을 대상으로 한다. 그래서 아주 기초적인 파이썬 문법은 가급적 다루지 않고 있다. 그렇지만, 코드마다 설명을 자세히 하고 있어 이해도 쉽고, 필요에 따라 중간중간 파이썬 관련 문법도 다루고 있고, MySQL, CSV, PDF, 워드파일, 판다스 등 관련 라이브러리와 사용법 설명도 잘 되어 있다.



다른 파이썬 학습서 중에는 웹스크레이핑를 한 파트로 다루는 것도 있는데, 거기서는 배운 파이썬 문법을 활용해 보는 정도, 수박 겉 핥는 기분으로 다루는데, '파이썬으로 웹 크롤러 만들기'에서는 진짜 별별 것을 다 다룬다. 자바스크립트 스크레이핑, API를 통한 크롤링도 자세히 알아보고, 아예 이미지를 텍스트 인식해서 텍스트 스크레이핑을 하기까지 한다.



이것이 끝이 아니다. 쿠키 처리, TLS 핑커프린팅, 타이밍 처리, 허니팟 피하기 등 이런 것들은 다양한 웹 스크레이핑 경험이 없으면, 말할 수 없는 저자만의 내공이 고스란히 담겨있는 부분들이다. 중요한 용어나 주의할 것과 같은 저자의 조언은 박스나 CAUTION 코너에 담았다. 게다가 '파이썬으로 웹 크롤러 만들기'는 이번 3판을 통해 지금과 안 맞는 것들은 손을 봤다고 한다. 


웹 스크레이핑 구현이 필요한 분에게 '파이썬으로 웹 크롤러 만들기'는 무척 요긴한 책이 될 것이다. 아울러 파이썬 입문하고 프로그래밍 실력을 좀 더 높이고 싶은 분에게도 매우 좋은 책이다. 파이썬뿐만 아니라, 다른 언어 쓰는 분도 웹 스크레이핑 기법을 전체적으로 이해는데 많은 도움을 줄 것이다. 개인적으로는 무모하기만 했던 나의 넷스케이프 시절을 떠올리며 재미있게 본 책이었다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo