파이썬으로 웹 크롤러 만들기 - 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법, 2판
라이언 미첼 지음, 한선용 옮김 / 한빛미디어 / 2019년 3월
평점 :
구판절판


최근에 웹 페이지를 자동으로 읽고 실행할 일이 생겼는데, 마침 <파이썬으로 웹 크롤러 만들기(2판)>을 읽게 되어 다행이었습니다. 이 책은 1판을 산 적이 있던 터라 좀 신기했습니다. 1판은 파이썬 기본을 익힌 수준이면 쉽게 시작할 수 있었는데 그새 무슨 내용을 보강했나 궁금해졌습니다.


한국은 '웹 크롤링(crawling)'이라는 어휘가 대세라, 저자가 쓰는 '웹 스크레이핑(scraping)'이라는 용어가 볼 때마다 어색합니다. 번역가로서 고민스러웠겠습니다.


2판 역시, 파이썬 문법 기초만 알면 웹 크롤링을 따라 개발하도록 친절하게 안내합니다. 기술 배경부터 코딩 예시까지 책을 주욱 쫓아가면 됩니다. 코딩 예시는 CSV 파일이나 DB에 저장하는 기능 구현까지 다루므로 1부 내용만 소화해도 어지간한 웹 사이트 크롤링은 충분히 구현하겠습니다. 파이프라인 같은 용어가 어색하더라도 개의치 말고 책 끝까지 읽어나가길 바랍니다.


2부 고급 스크레이핑은 CSV 뿐만 아니라 MS 오피스, PDF 문서를 읽어서 cleansing 같은 전처리를 하고 단순한 문자열 처리만이 아니라 자연어 처리를 통해 비정형 데이터에서 유용한 정형(≒ 수치) 데이터를 추출하는 기능 구현까지 소개합니다. 여기에 쿠키 처리를 포함한 로그온 처리, 자바스크립트 기반 동적 웹 페이지 크롤링에 캡차 통과까지 익히면 RPA(로보틱 프로세스 자동화) 수준 개발도 가능합니다. 저는 이 목적으로 이 책을 펴들었습니다.


이 외에 병렬처리로 크롤링 속도 향상, 사람처럼 웹 브라우징하고 원격 서버를 쓰기처럼 차단 당하지 않는 노하우, 웹 크롤링 관련 법적 이슈를 다룹니다. 이 정도면 <파이썬으로 웹 크롤러 만들기(2판)>을 웹 크롤링 백서라고 해도 좋을 정도입니다.


인터넷에 웹 크롤링을 다룬 글은 정말 많지만, 필요한 기능을 일일이 찾기는 귀찮습니다. 데이터 분석가, 데이터 과학자를 비롯하여 엔지니어가 아니더라도 자동화를 염두에 둔 지식노동자는 이 책 한 권을 두고 있으면 금방 원하는 기능을 구현할 수 있겠습니다. 파이썬 세상이나 이런 저런 머신러닝 기능이 더 발전하면 3판이 또 나오겠지요? 기대가 됩니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
퀀트 전략을 위한 인공지능 트레이딩 - 파이썬과 케라스를 활용한 머신러닝/딥러닝 퀀트 전략 기술
김태헌.신준호 지음 / 한빛미디어 / 2020년 8월
평점 :
장바구니담기


신기한 책을 만났습니다.

그동안 인공지능/머신러닝 입문서를 떼고 나서 심화학습을 하기 위한 책을 찾아 보면 그리 많지 않았습니다. 때문에 캐글 같은 경진대회 참여와 전문업체 취업 외에는 갈고 닦을 방법이 적었습니다.

퀀트 분야도 마찬가지입니다. 엄청나게 수학적(!)이거나 자전소설 같은 느낌을 주는 책을 읽어 본 적이 있습니다. 책 한두 권 읽었다고 그 업계 노하우 등 일하는 방식을 흡수할 엄두는 내지 않았지만 겉핥기조차 쉽지 않았다는 느낌을 받았습니다. 반면 이 책은 이 정도로 날짜형식을 이런 식으로 변환하는 게 좋다는 식으로 노하우를 알려주며 저자들이 경험했을 시행착오를 줄이도록 도와줍니다.

더불어 여러 입문서에서 다루는 예제로는 함수가 발휘하는 진정한 가치를 몰랐을 때도 많았는데, 다시 말해 그 기능을 왜 저렇게 쓰는지 납득하지 못하는 때가 많았는데 금융 데이터를 다룬 예제를 통해 보니 고민 끝에 나온 기능들임을 실감했습니다.

대신 이 책은 기초지식을 요구합니다. 우선 파이썬과 기본적인 머신러닝 입문지식을 필요로 합니다. 너무 두껍지 않은 입문서를 두 권 정도 골라 미리 보면 좋겠습니다. 더불어 주식투자에 대한 지식도 어느 정도 필요합니다. 이런 저런 투자 관련 개념을 설명하지 않고 넘어가지는 않습니다만, '모멘텀'이 뭔지도 모르는 수준이라면 이 책이 재미없어질 수도 있습니다. 평소에 관련 기사를 즐겨 보는 것으로도 충분해 보이긴 합니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
핸즈온 비지도 학습 - 텐서플로, 케라스, 사이킷런을 활용한 알고리즘과 방법론, AI 활용 사례
안쿠르 A. 파텔 지음, 강재원.권재철 옮김 / 한빛미디어 / 2020년 7월
평점 :
장바구니담기


회사에서 인공지능 관련 일을 하기에 (내외부) 현업 고객들이 현장 니즈를 주제로 아이디어를 토의할 때가 있습니다. 얼마 전부터  AI 학습용 데이터를 확보하기가 어렵다는 것은 잘 알게 된 현업이 간혹 비지도 학습으로 해결할 수 있는지 물을 때가 있었습니다. 그냥 이미지 데이터, 그냥 비정형 텍스트 문서 데이터는 많은데, 학습용 데이터로 가공하려면 태깅, 라벨링 작업이 필수적이며 인건비가 상당히 들 수 밖에 없습니다. 때문에 비지도 학습이 데이터가 부족한 현실을 타개하는 돌파구가 되어줄 수 있는지 알고 싶어했습니다. 안타깝지만 비지도 학습이 그런 식으로 도깨비 방망이가 되지는 못한다는 답변을 해야 할 때가 태반이었습니다.


이제까지 제가 일하는 곳은 PCA와 K-Means로 전형적인 비지도 학습만 해보았습니다. 이 정도만 해도 꽤 효과적이었습니다. 그래도 최근 몇 년 사이에 딥러닝과 더불어 비지도 학습 기술도 크게 발전하고 사례가 많이 나오고 있음을 알았기에 어떻게 익혀 볼까 고민만 하던 차에 반가운 책이 나왔습니다.


집어 들기 버겁도록 두꺼운 원서나 왜 번역했는지 모를 번역서는 있었어도, 비지도 학습을 주로 다룬 입문서는 많지 않았기에 정말 반가웠습니다. 인공지능, 머신러닝을 처음 접하는 독자는 다른 좀 더 얇은 입문서를 먼저 읽고 나서 이 책을 봐도 좋겠습니다. 제가 봤을 때에 이 책은 지도학습에는 낯설지 않은 독자를 대상으로 합니다.

 

목차로 훑어 봐도 살짜기 놀랄 만큼 상당히 폭넓은 주제를 다룹니다. 데이터 분석, 이미지 인지 등 비지도 학습으로 할 수 있는 전반을 모두 경험하도록 꾸몄습니다. 중간 중간 입문자에게 어려울 수 밖에 없는 부분마다 친절한 역자주가 도움말을 줍니다. 이 책이 가진 장점 중 하나입니다. 텐서플로/케라스, Scikit-learn을 두루 쓴 것도 좋아 보입니다. 비즈니스에 따라 사이킷런으로 충분한 때도 많기 때문입니다. GPU 쓰기가 부담될 때가 좀 있기도 합니다.


이 책으로 독학을 한다고 하면 거의 매일 일정 분량을 실습하고 트러블 슈팅을 한다는 전제 하에 못해도 두 달은 걸리지 않을까 합니다. 석 달이 걸렸다고 해도 느리지는 않습니다. 그룹 스터디 용도로 쓰기에도 좋겠습니다. 중간 중간 좌절하는 독자에게는 '원래' 이런 책은 100% 이해가 안 가더라도 일단 끝까지 모두 끝내면 결국 남는다는 말씀을 드리고 싶습니다. 마냥 쉽지 않기에 시간을 들여 도전할 만하다는 현실도 상기하길 바랍니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
딥러닝과 바둑 - 알파고를 능가하는 바둑봇을 만들며 익히는 딥러닝, 강화학습
막스 펌펄라.케빈 퍼거슨 지음, 권정민 옮김 / 한빛미디어 / 2020년 6월
평점 :
장바구니담기


빅데이터 일을 하다가 '알파고' 열풍이 불어닥치는 바람에 인공지능 연구개발팀 매니저까지 하게 됐으면서도 정작 알파고에 대해서는 어느 이상 알아 보지 않았습니다. 저희 팀이 할 수 있는 일에 바빴습니다. 그러던 차에 이 책을 만났습니다. '그래, 이게 있었지.'하는 생각이 들었습니다. 최근 강화학습을 쓸 만한 일이 생겨서 눈에 더 들어 왔다 봅니다.

이 책은 내용이 정말 충실한 튜토리얼입니다.



저자가 설명한 그대로입니다.

1부 기초, 2부 바둑을 두는 머신러닝 모델 개발 및 배포, 3부 책을 덮고 나서 익혀나갈 주제 소개, 부록으로 기초지식에서 실제 서비스로 적용하기까지 모두 다룹니다. 총 443쪽 중에서 허투루 넘길 내용이 없습니다. 학부 교재로 쓴다면 2학기는 들여야 하지 않을까 싶을 정도입니다.

난도는 좀 애매한 면이 있습니다. 다른 뾰족한 수는 없기 때문이기도 하겠습니다만 어느 순간 훅 어려워지는 느낌을 받았습니다. 기초 부분은 파이썬에 익숙한 독자가 따라 하기 쉬운 편이라고 봅니다. 저는 심화 내용으로 들어가면서부터 친절한 지도 대로 따라 하면서도 스스로 제대로 이해를 하고 있는 건지 의구심이 들었습니다. 사람마다 다르겠지만 독학하기에는 어려운 주제들로 빼곡하여 그런 게 아닐까 싶습니다. 머신러닝 입문자는 다른 입문서를 보고 오거나 일단 그대로 따라 해보는 것도 의미가 있겠습니다. 봇 수준이야 어찌 됐든 실제로 움직이는 모습을 보는 건 즐거운 일입니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
조직을 성공으로 이끄는 프로덕트 오너
김성한 지음 / 세종(세종서적) / 2020년 3월
평점 :
장바구니담기


IT기업 연구소 조직에서 일하다 보니 신제품 개발에 준하는 업무로 일하곤 합니다. 우리 팀에서도 가용자원 50%는 할애해도 좋을 솔루션이 나오면 좋겠다고 생각하면서, 이런 일은 PM과는 결이 좀 다르다는 느낌을 받았습니다. 그러던 중 이 책을 만났습니다.

저자는 주로 코빗쿠팡에서 일한 경험을 토대로 product owner(PO)라는 업무와 지침을 소개합니다. 경험을 토대로 쓴 책은 주제를 체계적으로 전달하지는 못하거나 지루한 소설이 되거나 최악에는 편협한데, 이 책은 그런 함정을 잘 피해갑니다. 초반에는 너무 아는 얘기만 하는 게 아닌가 실망할 뻔했는데 중반부터는 노하우를 줄줄 풀어 줍니다. 프로젝트 경험이 적은 독자는 내가 이해를 한 건지 만 건지 모를 수도 있겠다 싶을 정도입니다.

말미에는 저자가 프로덕트 오너로서 일하며 타개해야겠다고 생각한 인식을 담담히 이야기합니다. 한국 경영진 태반은 PM(Project Manager)은 알아도 PO는 생소해 합니다. 직원 태반도 마찬가지일 겁니다. 쿠팡 정도나 되니까 그런 걸 하는 거라는 말도 나올 만합니다. 때문에 저자는 공들여서 PO 업무를 설명하는데, 방식이 인상 깊었습니다. 굳이 초반에 PO가 무엇인지 어색해 하는 독자를 붙잡고 억지로 이해 시키려 하지 않고, 사례와 경험을 섞어 익숙하게 한 후에 어떤 사람이 PO에 적합하고 어떻게 해야 PO로서 성장할 수 있는지 조언하며 책을 마무리합니다.

책 읽는 내내 현재 겪어내는 현실에서 보였던 면면이 떠올라 몇 번이고 상념에 빠졌습니다. 책을 덮고 나니, 프로덕트 오너라는 업무를 잘 알게 된 듯하여 만족스러우면서도 다시 출발선에 선 듯한, 뭔가 막막해진 심경입니다. 100미터 단거리는 아니고, 마라톤도 아닌 철인3종 경기를 3년은 뛰어야 할 듯한 기분이 되었습니다. 물론 보통 독자라면 이런 식으로 고민하지 않고 흥미롭게 술술 읽어 내려갈 겁니다. 신입사원보다는 대리급, 책임급에게 권합니다. 신입사원은 기술에 먼저 집중하는 게 좋겠습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo