제대로 시작하는 챗GPT와 AI 활용 with 파이썬 - 프롬프트 엔지니어링부터 음성 인식, 이미지 생성, 챗봇, 웹 서비스까지
에이먼 엘 암리 지음, 대니얼WJ 옮김 / 한빛미디어 / 2025년 3월
평점 :
장바구니담기


"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."



얼마전 샘 올트먼 오픈AI 최고 경영자가 사진을 지브리 화풍으로 변환하는 유행으로 인해, GPU가 녹고 있다고 한 적이 있다. 어느 정도길래 그런 소리를 하나 했는데, 서비스 공개 1주일 만에 1억 3천만 명이 이미지 7억 개를 넘겼다고 한다. 이런 상황이 뉴스에 알려졌으니, 지금은 더욱 어마어마하게 늘어 났을 것이다.


생성형 AI를 기반으로한 챗GPT가 처음 등장했을 때는 다들 이게 뭐야 하며 생소하게 여겼는데, 이제는 일반인부터 전문가까지 모두가 사용하는 인공지능 서비스가 되어 버렸다. 모르는 것을 간단히 묻는 것부터 시작해서, 각종 서식 문서 작성, 번역, 이미지 또는 동영상 제작, 프로그래밍 코드 생성, X-ray 같은 의료 이미지 분석, 유전자 연구, 챗봇 등 인공지능을 사용할 수 있는 곳이 나날이 많아지고 있다. 비즈니스 측면에서 광활한 기회의 땅이 생긴 것이다. 개발자 입장에서도 무척 솔깃한 상황이 벌어지고 있다. 


그래서 나 역시도 틈틈히 인공지능 관련 공부도 하고 있는데, 이론 공부도 중요하지만, 이론만 하다보면, 활용을 어떻게 해야 할지 무척 막연하게 느껴지게 된다. 처음부터 인공지능 플랫폼을 만든다는 것은 어마어마한 자금력이 필요하므로 그저 상상에 지나지 않는다. 역시 제일 좋은 방법은 잘 차려진 밥상에 숟가락을 얻는 거다. 즉 챗GPT 같은 생성형 AI 서비스의 API를 사용하는 것이 가장 현실적이고, 빠른 방법이라는 소리다.



'그럼 API를 어떻게 쓰지?'하는 의문에 자세하고 다양한 활용 방법을 알려주는 책이 바로 에이먼 엘 암리 소프트 엔지니어의 '제대로 시작하는 챗GPT와 AI 활용 with 파이썬'이다.



책 제목에 책 내용의 핵심이 대부분 담겨 있듯이, '제대로 시작하는 챗GPT와 AI 활용 with 파이썬'은 챗GPT와 파이썬을 사용한다. 그리고 '제대로 시작하는'에 주목해야 한다. 진짜 오픈AI API의 효과적 사용법, 활용법을 제대로 시작할 수 있게 해주기 때문이다. 챗GPT의 GPT-4o mini, GPT-4o, DALL·E, TTS, 위스퍼, CLIP, 임베딩 등, 일반 AI 생성, 이미지와 사운드 생성, 변환 등의 다양한 기능을 기초부터 세세히 알려준다.



구글 코랩에서 오픈AI API 라이브러리 설치도 해보고, GPT-4o mini로 간단한 대화 생성을 코딩해보며, 본격적인 학습을 시작한다. 코딩은 파이썬 프로그래밍 언어로 한다. 따라서 파이썬 프로그래밍이 가능해야 이 책을 효과적으로 읽어 나갈 수 있다. 다만 코드들이 쉽고 간단해서 파이썬 입문자 수준에도 보기 어렵지 않을 것이다.



'제대로 시작하는 챗GPT와 AI 활용 with 파이썬'은 전체 7개의 파트로 구성되어있다. 1에서 4까지는 다양한 오픈AI API 활용을 담고, 5, 6은 임베딩과 파인튜닝처럼 보다 정확성을 높이고, 업그레이드 된 성능과 효율을 어떻게 구현할 수 있는지 여러 예제와 함께 비교 설명하고 있다. 실전 애플리케이션 개발 측면에서 꼭 참고해야 할 중요한 부분이라 생각한다. 



파트 7은 부록을 모은 것인데, 클로드, 플레이그라운드, 스트림핏, RAG모델, 오토젠 등을 소개하고 이것들을 활용하는 다양한 예제가 들어 있다. 그만큼 많은 내용을 담고 있어서, 이 파트 하나만으로도 책 한 권이 더 추가된 느낌을 받았다. 아울러 대니얼WJ 역자가 한국 환경에 맞게 바꿔 담은 노력을 확실히 느끼게 만드는 파트이기도 하다. 본문 곳곳에도 정성어린 역자의 주석이 있어 좋았다.


'제대로 시작하는 챗GPT와 AI 활용 with 파이썬'은 오픈AI API 사용과 활용을 제대로 시작할 수 있게 쉽고 자세히 알려주는 책이다. 내가 알고 싶었던 거, 나에게 필요한 것들을 가득 담고 있었다. 단순한 챗GPT 사용을 넘어, 다양한 인공지능 서비스를 개발하는 데, 참 요긴한 책이라 느낀다. 인공지능에 관심있는 개발자나 업무에 활용하려는 분들에게 적극 추천한다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
의사와 전문 의료인이 만든 의사를 위한 챗GPT
김대홍 외 지음 / 광문각출판미디어 / 2025년 4월
평점 :
장바구니담기


* 출판사로부터 도서를 제공받아 작성한 주관적인 리뷰입니다.


인공지능이 기자, 디자이너 콜센터 직종 같은 일자리를 뺐고 있는 것은 사실이나, 아직 대부분의 영역에서 도와주거나 상호보완의 역할을 하고 있다. 시간 단축과 함께 업무 효율성을 높여주고, 실수나 착오를 방지하는 데도 도움을 준다. 


나 역시도 프로그램 만들면서 챗GPT 같은 인공지능 AI 서비스를 자주 쓰고 있는데, 검색 시간을 엄청 줄여주고 있고, 몰랐던 영역의 코딩 노하우를 얻거나, 테스트 코딩하는데 무척 유용해서 적극 활용하고 있다. 같은 기간에 완성도를 더 높일 수 있어, 이렇게 좋은 것을 쓰지 않는다면, 진짜 멍청이라는 생각이 들 정도다. 당연히 대부분의 개발자들이 적극적으로 인공지능을 사용하고 있다.


의료, 의학 쪽은 직접적으로 잘 모르겠으나, 신약 개발이나 유전자 연구, 의료 진단 등에 활발히 사용되고 있다고 알고 있다. 마침 나도 의료 쪽에 관심 있어 '의사와 전문 의료인이 만든 의사를 위한 챗GPT'를 보게 되었다. 



이 책은 의사와 의료인에게 챗GPT가 무엇인지, 설치는 어떻게 하는지, 어떤 곳에 쓰면 좋고, 어떻게 활용하는지 쉽고 빠르게 알려주는 책이다. 챗GPT 전혀 모르는 초짜도 부담 없이 읽을 수 있게 되어있다. 의사를 위한 책이라 어려운 내용들이 나올까 긴장했는데, 의학 전문용어를 많이 사용하지 않아, 일반인도 충분히 읽을 수 있는 책이다.


사실 내 경우도 몸이 불편하거나 아프면, 병원 가지 전이나 다녀와서 챗GPT 같은 곳에서 자세한 정보를 얻고 있다. 처방전에 나온 약명을 넣어 확인해 보거나, 피검사하고 의사가 문제가 있다는 수치를 넣어서 자세한 설명을 보기도 한다. 따라서 '의사와 전문 의료인이 만든 의사를 위한 챗GPT'에 나온 인공지능에 묻는 방법을 참고하면 더욱 정확하고 상세한 의료 설명을 확인할 수 있다.


이처럼 일반인도 챗GPT 덕분에 높은 수준의 자세한 의료 정보를 얻을 수 있는데, 이것을 잘 활용하면, 환자나 의사 모두에게 좋은 해결책을 찾을 수 있다. 특히 환자 입장에서 오랜 시간 대기한 끝에 실제 진료는 1분도 채 걸리지 않는 대한민국 현실에 대한 불만이나 문제점을 인공지능으로 어느 정도 보완할 수 있다.



'의사와 전문 의료인이 만든 의사를 위한 챗GPT'에서 소개된 활용법을 보면, 챗GPT를 통해 환자 상담, 검사 결과 해석, 예방 및 건강관리 등 다양한 영역에서 도움을 받을 수 있다. 이것을 활용하여, 의사가 진료한 것을 챗GPT로 자동화해서 만들어진 진단서나 진료 결과를 처방전과 함께 가져간다면, 환자 입장에서는 의사에 대한 신뢰가 한층 높아질 수 있다. 인공지능은 어려운 의학용어도 풀어 설명해 줄 수 있고, 혹시 모를 오진의 위험도 줄이는 데 기여할 수 있다.


이 밖에 '의사와 전문 의료인이 만든 의사를 위한 챗GPT'에서는 논문 검색이나 요약, 각종 의료 행정에 필요한 문서 작성, 정리 등에서 활용하는 것도 다룬다. 자주 사용하는 프롬프트는 단축어로 만들어 쓰는 방법도 나온다.  시간 걸리는 문서 작성도 쉽게 할 수 있고, 번역도 자동으로 되어 나오므로 전문 분야 공부하는 데 도 도움이 된다.


챕터 3 후반부와 챕터 4에서는 인공지능 사용에 있어, 꼭 알아둬야 할 저작권과 교차 검증도 잘 다루고 있다. 계속 나아지고 있지만, 아직까지 인공지능이 자기 맘대로 근거 없는 대답, 거짓말도 하고 있으므로 AI의 한계를 입문할 때부터 잘 파악할 필요가 있다.


인공지능은 인간 스스로 편리성을 높이기 위해 만든 것이다. AI와 싸울 필요 전혀 없다. 오히려 인공지능을 어떻게 활용하면 더욱 좋은지 고민해야 한다. 인공지능을 잘만 활용하면, 너무나 편리한 도구다. 의료 쪽에도 인공지능은 흐름을 절대 거스를 수 없는 큰 강물이 될 것이다. 의사, 간호사, 연구자 모두 적극적으로 익혀야 한다. 인공지능 활용에 '의사와 전문 의료인이 만든 의사를 위한 챗GPT'가 쉽고 빠른 도움을 줄 것이다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
2025 이패스 AI능력시험 AICE Associate
신성진.김용재 지음 / 이패스코리아 / 2025년 3월
평점 :
장바구니담기


* 출판사로부터 도서를 제공받아 작성한 주관적인 리뷰입니다.



개발자로서 시대 흐름에 뒤지지 않기 위해, 인공지능 AI 관련 책을 기회 닿는 데로 보고 있다. 그런데 얼마 전 AICE라는 AI 자격증 시험이 있다는 것을 알게 되었다. 빅데이터, 로봇이나 3D 프린터 같은 것도 자격증이 있으니, 인공지능도 자격증이 있는 것도 당연한데도 모르고 있다가 우연히 알게 되니 뭔가 신기하다는 느낌이 많이 든다.


AICE가 무엇이고, 어떻게 AI 능력을 테스트하는지 궁금해서 신성진, 김용재 저자가 쓴 '2025 이패스 AI능력시험 AICE Associate'을 보게 됐다.



AICE는 2022년 11월에 도입된 AI 활용 능력을 평가하기 위한 자격시험이다. KT와 한국경제신문이 공동 개발 운영하며, 레벨에 따라 FUTURE 1급, 2급, 3급, JUNIOR, BASIC, ASSOICATE, PROFESSIONAL 등급으로 나누고 있다. 여기서 재미있는 것은 아직은 모두가 공인 자격이 아니다. Associate만 공인민간자격이고, 나머진 등록민간자격이다. 따라서 Associate 보다 Professional이 상위 등급 자격증이나, 우선 Associate를 취득하고, 필요에 따라 Professional 자격을 따는 것이 합리적이라 생각한다.


그리고 Associate와 Professional은 유효기간이 3년이고 나머진 영구이다. Associate와 Professional은 실무 활용 능력을 반영하는 레벨이므로 빠르게 변하는 AI 기슬에 대응하기 위해 3년으로 짧게 잡은 것이다. 기간이 생각보다 짧다 보니, 아쉽게도 느껴지지만, 불필요한 자격증 수집과 장롱면허가 되는 것을 막기 위한 좋은 방법이다.


'2025 이패스 AI능력시험 AICE Associate' 초반부에는 출제경향분석, 학습전략, AICE 자격시험안내, AICE Associate 시험안내, 4주차로 계획된 학습플래너와 같은 것들이 나와 있는데, AICE 공식 사이트보다, 자세한 설명과 분석이 나와 있어, AICE Associate 자격증을 준비하거나 관심 있는 사람들에 많은 도움을 준다.


일단 AICE 시험이 생긴지 얼마 안 되어서 그런지 시중에 관련 교재가 많지 않다. 선택의 여지가 거의 없다시피한데, '2025 이패스 AI능력시험 AICE Associate'을 보면, 내용들이 무척 체계적이고 자세히 설명되어 있음을 알 수 있다.


AICE Associate 인공지능 자격증 시험 출제 범위는, 탐색적 데이터 분석, 데이터 전처리, 머신러닝과 딥러닝 모델링, 모델 성능 평가 이렇게 크게 4분야로 나뉜다. 이론 5문항, 실습 14문항에 시험시간 90분이고, 80점 이상을 받아야 합격이다. 역시 활용 능력을 보는 시험답게 실습 문항이 많다.


문제를 풀기 위해서는 파이썬 코딩을 기본적으로 할 줄 알아야 한다. 온라인으로 시험을 보는데, 주피터 랩 환경에서 보게 된다. 즉 파이썬을 모르면 문제를 풀 수 없다.



그래서 '2025 이패스 AI능력시험 AICE Associate' 파트 1은 파이썬 환경을 설치를 하나하나 단계별로 보여주고 있고, 파이썬 기본문법, Numpy, Pandas 라이브러리 사용법을 배운다. 원래는 파이썬 하나만 제대로 배우려면 많은 시간이 필요하다. 문법 자체는 어렵지 않으나, 요즘 곳곳에서 파이썬을 쓰다 보니, 각종 라이브러리들이 생겨 일일이 다 습득하긴 어렵다. 다행스럽게 이 책에서는 시험 영역에 해당하는 데이터 분석, 데이터 전처리 중심으로 관련된 파이썬을 탄탄히 다지게 도와준다. 파이썬과 데이터 파트만 200쪽이 넘고, 활자를 살짝 줄여 담고 있어서, 웬만한 파이썬 기본 책보다 많은 양을 내용이 들어 있다.


'2025 이패스 AI능력시험 AICE Associate'는 코드 설명이 알기 쉽게 잘 되어 있고, 각 챕터가 끝날 때마다, 확인문제를 통해 중요한 핵심을 다시 점검한다.


인공지능 관련한 것은 파트2에서 다룬다. 머신러닝, 딥러닝, 지도학습, 비지도학습, 과적합, 모델링, 모델평가, 회귀모델 등등 AI 관련 서적에 자주 등장하는 것들이 이 책에 거진 다 나오고 있다. 파트2도 파트1과 마찬가지로 코드 설명이 자세한데, 여기에 추가로 인공지능 관련 지식을 잘 요약하고 설명하고 있는 것을 알 수 있다.


9개의 챕터가 있는데, 챕터 하나가 인공지능 책 한 권 이상을 하는 내용을 축약해서 담은 것도 있다. 인공지능을 전혀 모르는 사람에겐 난관이 되겠지만, 반면, 인공지능의 각종 이론과 기법을 보다 빠르게 정리하고 배울 수 있다는 장점이 있다.



게다가 '2025 이패스 AI능력시험 AICE Associate'의 내용을 epassbiz.com 사이트를 통해 정규이론과 문제풀이 강의를 수강할 수도 있다. 이를 통해 4주 완성을 확실하게 다질 수 있을 것이다. 그리고 유튜브 이패스TV에는 AICE 소개 영상이 있어 사전 파악하는 데 도움을 준다.


혹시 책을 여러 번 봐도 모르는 부분은 ChatGPT 같은 서비스를 이용해도 되고, 시중에 관련 서적도 풍부하므로 그것들로 보강학습을 하면 될 것이다.


파트3은 종합실습으로 신용카드 사기 감지 예측 모델과 파워리프팅 선수 경기력 향상 모델을 앞에서 학습한 것을 토대로 다양하게 분석하고 코딩하는 실제 활용 방법을 배운다.


파트4는 최종 모의고사가 나오는데, 얼핏 문제 자체는 매우 간단해 보이는데, 파이썬과 인공지능 이론을 모르면 전혀 풀 수 없을 것이다.


확실히 '2025 이패스 AI능력시험 AICE Associate'는 다양한 방법으로 독자가 AICE Associate 자격에 합격할 수 있게 도와주는 것을 알 수 있다. 파트5에는 중요한 것을 아예 요약하거나, 오픈 북 검색에 도움 되는 검색어와 사이트까지 모아놨다.


이번 '2025 이패스 AI능력시험 AICE Associate'를 보고, 개인적으로 흥미롭고 흥분되었다. 그동안 내가 공부한 파이썬과 인공지능 실력이 어느 정도인지 어떻게 체크하나 막연했는데, 딱 맞는 AICE Associate 자격증이라는 게 있었기 때문이다. 시험 준비를 통해, 공부한 것들을 명확히 정리하면서, 부족한 부분을 점검할 수 있는 좋은 기회가 된다. 더군다나 자격증까지 딸 수 있어 더욱 좋다. 취준생 또는 인공지능을 공부하고 있는 분이라면, 꼭 한번 '2025 이패스 AI능력시험 AICE Associate'를 확인해 보길 추천한다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
닥터, 코드를 만나다 - 코드를 직접 작성하여 익힐 수 있는 의료인을 위한 실무형 워크북
유준일.박현우.김현수 지음 / 군자출판사(교재) / 2025년 3월
평점 :
장바구니담기


* 출판사로부터 도서를 제공받아 작성한 주관적인 리뷰입니다.


인공지능의 발전은 의료, 의학 쪽에도 많은 영향을 미쳤다. 각종 의약품 개발 기간을 단축시키기도 하고 있고, 진단 진료 쪽에서도 정확성이 인간 보다 높아지고 있다. 영화에서 봤던 자동화된 치료, 자동 로봇 수술도 더 이상 상상만의 일이 아니다.


현재 국내에서는 원격진료, 비대면 진료가 특별한 경우 외에는 법적으로 허용되고 있지 않으나,

일본이나 미국에서는 이미 초진부터 원격 진료가 가능하고, 관련 산업도 활발하게 성장하고 있는 상황이다. 이에 아울러 앞으로 다가올 의료 인력의 부족, 의료 비용 절감, 지역 간 의료 서비스 불평등 해소 등을 위해서도 언젠가는 허용될 수밖에 없다고 본다.


그래서 전부터 인공지능을 의료 쪽에 접목한 프로그램을 개발하고 싶었는데, 로봇이나 공장자동화 분야는 해온 게 있어 얼추 알겠으나, 의학이나 의료 쪽은 경험이 많지 않아서, 어떻게 방향을 잡아야 할지 제대로 알 수 없었다.


그런데 때마침 궁금했던 것을 해소할 수 있는 책을 이번에 만나게 되었다. 유준일 저자의 '닥터, 코드를 만나다'가 그것이다. 이 책은 책 표지에 밝혔듯이 코드를 직접 작성하며 익힐 수 있는 의료인을 위한 실무형 워크북의 성격을 가졌다. 단순히 챗GPT 같은 인공지능 서비스에 질의하는 것이 아니라, 파이썬을 사용해서 질환 진료 알고리즘을 구현해 보기도 하고, 의료 AI를 위한 공공 데이터셋 사용 방법, 영상 이미지 분석, 의료 데이터 분석 등과 같은 IT 개발자에 준하는 코딩과 활용법을 다루고 있다.



코딩이 나와서 개발자가 보는 책인가 할 수 있는데, '닥터, 코드를 만나다' 앞 쪽에 밝혔듯이 이 책의 대상을 전공의, 의대생, AI 개발자로 하고 있다. 의사 스스로 연구나 업무에 필요한 것이 있다면, 직접 프로그램을 만들어 활용할 수 있는 능력을 키우고자 하는 것이다.



아울러 나와 같은 개발자에게는 의료 현장에 어떤 것들이 필요하고, 기본 용어와 의료 프로세스 이해를 도우며, 최신 의료 AI 기술 동향과 사례를 익힐 수 있게 돕는 책이다. 책에 설명이 되어 있는 부분이 있지만, 의학 용어는 다시 찾아봐야만 했다. 반면, CNN, GAN, 깃허브, 파이썬과 같은 IT 쪽 용어나 내용은 큰 부담 없었다.


재미있는 것은 예제며, 개념이며, 모두 의료인의 시각으로 설명하고 있다는 점이다. Conda, Docker를 종합병원과 이동식 병원으로 설명한다. 생소하면서도 빙그레 웃게 만든다. 의료인에게는 이런 비유가 더 직접적으로 와닿을 거 같긴 하다.


'닥터, 코드를 만나다'에는 인공지능, 딥러닝에 관련된 설명은 간단하면서도 쉽게 잘 설명되어 있다. 다른 책에서는 전혀 접해보지 못한, 의료 영상 데이터 처리 라이브러리, MONAI, Nibabel, Pydicom, 플랫폼, Kaggle, PhysioNet 등에 대한 정보도 얻을 수 있다.



보통 GAN 하면, 노이즈 제거나 딥페이크 그런 쪽 설명을 많이 봐왔는데, 이 책에서는 MRI, CT, X-ray 영상이나 저해상도 의료 영상 고해상도 변화라는 의료 목적에 맞춰 설명하고 있다. '닥터, 코드를 만나다'에는 휴대용 초음파의 저화질 영상을 고화질 영상으로 변환하는데, CycleGAN을 사용하는 코드가 나온다. 이렇게 구체적인 활용 방법이 나오니, 막연해서 안갯속에서 흐릿한 느낌이었던 것이 선명한 사진처럼 다가온다.


책 속에 자연어 처리 NLP도 나오고, 챗GPT 활용, 깃허브 사용 노하우까지 나온다. '닥터, 코드를 만나다' 책 한 권에 개발 전반에 필요한 핵심은 다 담고 있는 것이다.


이번 '닥터, 코드를 만나다'를 통해 방향도 못 잡고 있었던 의료 쪽 인공지능 활용법을 구체적으로 알 수 있게 되어 큰 도움이 되었다. 특히 책 곳곳에  담겨있는 의학적 접근 방법과 노하우, 그리고 현장에서 데이터를 어떻게 처리하는지 알 수 있는 소중한 기회였다. 의료에 종사하면서 연구나 진료 등에 인공지능을 직접 써보고 싶은 분 또는 개발자로서 의료 AI에 관한 이해와 정보가 필요한 분에게 이 책을 적극 추천한다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬으로 웹 크롤러 만들기 - 3판
라이언 미첼 지음, 최경현 옮김 / 한빛미디어 / 2025년 1월
평점 :
장바구니담기


"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."


인터넷 초창기 웹브라우저로 넷스케이프가 큰 인기를 누리던 시절이 있었다. 당시에는 보안 개념이나 기술이 많이 부족했던 시절이라서 걸핏하면, 사이트가 뚫렸다. 우연히 해킹 아닌 해킹을 하는 바람에 그 회사에 전화해서 문제점을 알려준 기억도 난다.


그리고 그때는 멋진 사이트나 관심 있는 내용을 담은 사이트가 있으면, 아예 사이트 전체를 통째로 다 긁어 오는 일이 비일비재했다. 그걸로 어떻게 만들었나 공부하기도 하고, 필요한 정보만 따로 편집해서 보관하기도 했었다. 처음엔 수작업으로 했는데, 나중에 전문 툴이 많이 등장했다. 빅데이터나, 인공지능 AI와 같은 개념이 전혀 없었는데도, 다들 본능적으로 데이터의 가치만큼은 무의식적으로도 느끼고 있었던 거 같다.


이젠 보안 기술이 높아져 어려워진 부분도 많아졌고, 지적 재산권 등 법적인 부분도 따져가며 긁어 와야 하지만, 크게 봤을 때, 현재의 웹 스크레이핑과 별반 차이가 없어 보인다.


지금은 필요한 정보가 있으면, 여기저기 돌아다니지 않고, 바로 인공지능 서비스를 이용하고 있다. 물론 이것도 한계가 있다. 인공지능이 거짓말도 하고, 의외로 학습 안 된 부분도 많이 발견된다. 그렇기 때문에 업무나 나에게 필요한 정보를 맞춤형으로 가져올 수 있어야 한다.



이 방법을 알려주는 책이 바로 라이언 미첼의 '파이썬으로 웹 크롤러 만들기'다. 이 책은 파이썬을 사용하여 원하는 데이터를 가져오는 다양한 방법을 매우 자세히 알려준다. 단순히 방법만 알려주는 것이 아니라, 인터넷의 작동 원리, 즉 네트워킹 구조, HTML, CSS, 자바스크립트 같은 것을 살펴보고, 웹 스크레이핑의 법적 범위도 알아본다. 



법이란 단어를 듣게 되면, 뭔가 불편할 수 있지만, '파이썬으로 웹 크롤러 만들기'가 정리한 내용을 보고 있으면, '웹 스크레이핑을 이런 곳, 이렇게도 써?'하는 몰랐던 사용처와 방법을 알게 해줘서 의외로 재미있는 파트였다.



'파이썬으로 웹 크롤러 만들기'에서 알려주는 웹 스크레이핑 방법은 조금씩 조금씩 확장해가는 점진적인 형태로 알려준다. BeautifulSoup 라이브러리 설치하고, 그것을 정적 페이지 하나 분석에 이용해 보고, 하나의 도메인 그리고 전체 사이트, 인터넷으로 확장시킨다.



이때 중간중간 정규 표현식 같은 파이썬 문법에 대한 것도 다룬다. '파이썬으로 웹 크롤러 만들기'라는 책 제목 때문에 파이썬 기초부터 배우는 것으로 오해할 수 있는데, 이 책은 초중급을 대상으로 한다. 그래서 아주 기초적인 파이썬 문법은 가급적 다루지 않고 있다. 그렇지만, 코드마다 설명을 자세히 하고 있어 이해도 쉽고, 필요에 따라 중간중간 파이썬 관련 문법도 다루고 있고, MySQL, CSV, PDF, 워드파일, 판다스 등 관련 라이브러리와 사용법 설명도 잘 되어 있다.



다른 파이썬 학습서 중에는 웹스크레이핑를 한 파트로 다루는 것도 있는데, 거기서는 배운 파이썬 문법을 활용해 보는 정도, 수박 겉 핥는 기분으로 다루는데, '파이썬으로 웹 크롤러 만들기'에서는 진짜 별별 것을 다 다룬다. 자바스크립트 스크레이핑, API를 통한 크롤링도 자세히 알아보고, 아예 이미지를 텍스트 인식해서 텍스트 스크레이핑을 하기까지 한다.



이것이 끝이 아니다. 쿠키 처리, TLS 핑커프린팅, 타이밍 처리, 허니팟 피하기 등 이런 것들은 다양한 웹 스크레이핑 경험이 없으면, 말할 수 없는 저자만의 내공이 고스란히 담겨있는 부분들이다. 중요한 용어나 주의할 것과 같은 저자의 조언은 박스나 CAUTION 코너에 담았다. 게다가 '파이썬으로 웹 크롤러 만들기'는 이번 3판을 통해 지금과 안 맞는 것들은 손을 봤다고 한다. 


웹 스크레이핑 구현이 필요한 분에게 '파이썬으로 웹 크롤러 만들기'는 무척 요긴한 책이 될 것이다. 아울러 파이썬 입문하고 프로그래밍 실력을 좀 더 높이고 싶은 분에게도 매우 좋은 책이다. 파이썬뿐만 아니라, 다른 언어 쓰는 분도 웹 스크레이핑 기법을 전체적으로 이해는데 많은 도움을 줄 것이다. 개인적으로는 무모하기만 했던 나의 넷스케이프 시절을 떠올리며 재미있게 본 책이었다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo