쿠버네티스 모범 사례 - 쿠버네티스 창시자가 알려주는 최신 쿠버네티스 개발 및 배포 기법
브렌던 번스 외 지음, 장정호 옮김 / 한빛미디어 / 2020년 12월
평점 :
장바구니담기


입문서가 아님을 이렇게 박력있게 드러내는 기술서는 처음 보았습니다.



다짜고짜 '이미 설치해 둔' 쿠버네티스에 응용프로그램을 설치한다며 시작합니다.


"쿠버네티스부터 설치하는 게 아닌가?" 같은 의구심이 드는 자는 이 책을 펼칠 자격이 없습니다. 반면 입문을 벗어나려는 독자에게는 눈에 쏙 들어오는 주제로 목차가 꽉 찼습니다. DevOps를 감안한 개발자 워크플로와 파이프라인 구축, 카나리 리전과 글로벌 롤아웃, 리소스 관리와 클러스터링, 모니터링/로깅, 보안/권한 등 구글 검색으로 찾아 보기에는 품이 많이 듭니다. 이 책으로 시행착오를 상당히 줄일 겁니다.


제가 감동 받은 14장 '쿠버네티스에서 머신러닝 실행하기'가 이 책의 특성과 취지를 잘 알려 줍니다.


chapter 14 쿠버네티스에서 머신러닝 실행하기

14.1 머신러닝에서 쿠버네티스의 장점

14.2 머신러닝 워크플로

14.3 쿠버네티스 클러스터 관리자를 위한 머신러닝

14.4 데이터 과학자 관심사

14.5 쿠버네티스에서의 머신러닝 모범 사례

14.6 마치며


쿠버네티스로 서비스를 운용하는 강점과 절차 전반에 대해 설명하고 구성에 대해 하나 하나 짚어 나가다가 최선의 효과를 뽑아낸 사례를 다룹니다. 아쉽게도 그대로 따라 할 수 있지는 못합니다. 쿠버네티스를 비롯한 유명한 오픈소스는 버전업이 빠른 편이므로 코드를 일일이 언급하지는 못했다고 봅니다. 대신 취지를 충분히 설명하여 독자가 해당 구성요소를 찾아 쓸 수 있게 안내합니다.


이 책이 가진 한계라 하면 한계이겠지만 바이블 수준으로 썼다가는 바이블 몇 권치는 나와야 합니다. 이 책이 보이는 미덕이 미덕으로 남으려면 분량은 이 정도가 적당하겠다 싶습니다.


달리 아쉬운 점이 있다면 학생 독자는 실습하기가 어렵겠다는 현실입니다. 메모리가 32GB 정도 되는 컴퓨터라면 그럭저럭 구성해 볼 만할 텐데 그 이하라면 좀 답답하겠다 싶습니다. 아무래도 VM을 여러 개 만들어야 하기 때문입니다. 라즈베리파이를 몇 개 살 만하다면 K3s를 섞어 쓰는 것도 방법이겠습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
데이터 전처리 대전 - 데이터 분석을 위한 파이썬, SQL, R 실천 기술
모토하시 도모미쓰 지음, 윤준 옮김 / 한빛미디어 / 2019년 11월
평점 :
절판


좀 신기한 책이 나왔습니다.


SQL, R, Python을 같이 설명하는 책은 처음 보았습니다.



보통 SQL만 R만 Python만 다루는 책이 태반일 텐데, 일단 이 셋을 한번에 다루는 게 신기하면서도, 그동안 많이 다루지 않고 '전처리'라는 영역을 주제로 했다는 게 정말 특기할 만했습니다. 캐글 같은 경진대회에서 괜찮은 성적을 거둘 만한 역량이어도 현장 업무에서는 시작 단계에서 어려움을 겪을 때가 상당할 텐데, 이 책은 현실에서 맞붙게 될 상황에 대해 다양하게 풀어줍니다.


예를 들어 범주형 데이터를 dummy 변수로 만들기는 원래 그렇게 하는 것 아니냐고 반문할 수도 있는데, 통계로 시작하지 않고 업무를 개발자로 시작했다거나 하면 직관적으로 깨닫기 힘든 노하우일 수도 있습니다. 그래서 이 책이 가진 가장 큰 장점은 시야를 넓혀준다는 점입니다.


SQL로 시작한 사람은 R, Python의 패키지를 많이 알아둬야 하는 배경에 익숙하지 않습니다. SQL로 처리하지 못하는 영역이나 SQL로는 길게 코딩할 수 밖에 없는 상황은 곤혹스럽기만 할 겁니다.


Python은 덜 한 편인데(완전 소견/편견), R은 워낙 패키지들이 막강하니 뭐든 R로 끌어 와서 처리하는 게 가능합니다. 다만 대체로 PC 위에서만 R을 사용할 수 밖에 없으니 데이터가 조금만 커져도 운용하는 데에 무리가 있습니다. 때문에 SAS 같은 상용 솔루션은 In-database 기능을 제공하고 홍보했습니다. 전처리 상당 부분을 성능이 괜찮은 DB에서 처리하면 작업시간을 줄일 수 있을 텐데, 의외로 SQL을 생소해 하는 팀원을 만나 다소 의아했던 적도 기억납니다.


이 책은 데이터 처리에 있어 R. Python. SQL로 제 몫을 다 하게 되었지만 시야를 넓히며 더 효율적인 방법을 갈고 닦고자 하는 중수에게 특히 권하고 싶습니다. 헤매는 시간을 줄이며 보다 다양한 영역을 눈으로 보게 해줍니다. 저런 방법이 있었구나 하는 깨달음을 향후 몇 년 간 업무경험을 풍요롭게 해줄 겁니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬으로 웹 크롤러 만들기 - 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법, 2판
라이언 미첼 지음, 한선용 옮김 / 한빛미디어 / 2019년 3월
평점 :
장바구니담기


최근에 웹 페이지를 자동으로 읽고 실행할 일이 생겼는데, 마침 <파이썬으로 웹 크롤러 만들기(2판)>을 읽게 되어 다행이었습니다. 이 책은 1판을 산 적이 있던 터라 좀 신기했습니다. 1판은 파이썬 기본을 익힌 수준이면 쉽게 시작할 수 있었는데 그새 무슨 내용을 보강했나 궁금해졌습니다.


한국은 '웹 크롤링(crawling)'이라는 어휘가 대세라, 저자가 쓰는 '웹 스크레이핑(scraping)'이라는 용어가 볼 때마다 어색합니다. 번역가로서 고민스러웠겠습니다.


2판 역시, 파이썬 문법 기초만 알면 웹 크롤링을 따라 개발하도록 친절하게 안내합니다. 기술 배경부터 코딩 예시까지 책을 주욱 쫓아가면 됩니다. 코딩 예시는 CSV 파일이나 DB에 저장하는 기능 구현까지 다루므로 1부 내용만 소화해도 어지간한 웹 사이트 크롤링은 충분히 구현하겠습니다. 파이프라인 같은 용어가 어색하더라도 개의치 말고 책 끝까지 읽어나가길 바랍니다.


2부 고급 스크레이핑은 CSV 뿐만 아니라 MS 오피스, PDF 문서를 읽어서 cleansing 같은 전처리를 하고 단순한 문자열 처리만이 아니라 자연어 처리를 통해 비정형 데이터에서 유용한 정형(≒ 수치) 데이터를 추출하는 기능 구현까지 소개합니다. 여기에 쿠키 처리를 포함한 로그온 처리, 자바스크립트 기반 동적 웹 페이지 크롤링에 캡차 통과까지 익히면 RPA(로보틱 프로세스 자동화) 수준 개발도 가능합니다. 저는 이 목적으로 이 책을 펴들었습니다.


이 외에 병렬처리로 크롤링 속도 향상, 사람처럼 웹 브라우징하고 원격 서버를 쓰기처럼 차단 당하지 않는 노하우, 웹 크롤링 관련 법적 이슈를 다룹니다. 이 정도면 <파이썬으로 웹 크롤러 만들기(2판)>을 웹 크롤링 백서라고 해도 좋을 정도입니다.


인터넷에 웹 크롤링을 다룬 글은 정말 많지만, 필요한 기능을 일일이 찾기는 귀찮습니다. 데이터 분석가, 데이터 과학자를 비롯하여 엔지니어가 아니더라도 자동화를 염두에 둔 지식노동자는 이 책 한 권을 두고 있으면 금방 원하는 기능을 구현할 수 있겠습니다. 파이썬 세상이나 이런 저런 머신러닝 기능이 더 발전하면 3판이 또 나오겠지요? 기대가 됩니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
퀀트 전략을 위한 인공지능 트레이딩 - 파이썬과 케라스를 활용한 머신러닝/딥러닝 퀀트 전략 기술
김태헌.신준호 지음 / 한빛미디어 / 2020년 8월
평점 :
장바구니담기


신기한 책을 만났습니다.

그동안 인공지능/머신러닝 입문서를 떼고 나서 심화학습을 하기 위한 책을 찾아 보면 그리 많지 않았습니다. 때문에 캐글 같은 경진대회 참여와 전문업체 취업 외에는 갈고 닦을 방법이 적었습니다.

퀀트 분야도 마찬가지입니다. 엄청나게 수학적(!)이거나 자전소설 같은 느낌을 주는 책을 읽어 본 적이 있습니다. 책 한두 권 읽었다고 그 업계 노하우 등 일하는 방식을 흡수할 엄두는 내지 않았지만 겉핥기조차 쉽지 않았다는 느낌을 받았습니다. 반면 이 책은 이 정도로 날짜형식을 이런 식으로 변환하는 게 좋다는 식으로 노하우를 알려주며 저자들이 경험했을 시행착오를 줄이도록 도와줍니다.

더불어 여러 입문서에서 다루는 예제로는 함수가 발휘하는 진정한 가치를 몰랐을 때도 많았는데, 다시 말해 그 기능을 왜 저렇게 쓰는지 납득하지 못하는 때가 많았는데 금융 데이터를 다룬 예제를 통해 보니 고민 끝에 나온 기능들임을 실감했습니다.

대신 이 책은 기초지식을 요구합니다. 우선 파이썬과 기본적인 머신러닝 입문지식을 필요로 합니다. 너무 두껍지 않은 입문서를 두 권 정도 골라 미리 보면 좋겠습니다. 더불어 주식투자에 대한 지식도 어느 정도 필요합니다. 이런 저런 투자 관련 개념을 설명하지 않고 넘어가지는 않습니다만, '모멘텀'이 뭔지도 모르는 수준이라면 이 책이 재미없어질 수도 있습니다. 평소에 관련 기사를 즐겨 보는 것으로도 충분해 보이긴 합니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
핸즈온 비지도 학습 - 텐서플로, 케라스, 사이킷런을 활용한 알고리즘과 방법론, AI 활용 사례
안쿠르 A. 파텔 지음, 강재원.권재철 옮김 / 한빛미디어 / 2020년 7월
평점 :
장바구니담기


회사에서 인공지능 관련 일을 하기에 (내외부) 현업 고객들이 현장 니즈를 주제로 아이디어를 토의할 때가 있습니다. 얼마 전부터  AI 학습용 데이터를 확보하기가 어렵다는 것은 잘 알게 된 현업이 간혹 비지도 학습으로 해결할 수 있는지 물을 때가 있었습니다. 그냥 이미지 데이터, 그냥 비정형 텍스트 문서 데이터는 많은데, 학습용 데이터로 가공하려면 태깅, 라벨링 작업이 필수적이며 인건비가 상당히 들 수 밖에 없습니다. 때문에 비지도 학습이 데이터가 부족한 현실을 타개하는 돌파구가 되어줄 수 있는지 알고 싶어했습니다. 안타깝지만 비지도 학습이 그런 식으로 도깨비 방망이가 되지는 못한다는 답변을 해야 할 때가 태반이었습니다.


이제까지 제가 일하는 곳은 PCA와 K-Means로 전형적인 비지도 학습만 해보았습니다. 이 정도만 해도 꽤 효과적이었습니다. 그래도 최근 몇 년 사이에 딥러닝과 더불어 비지도 학습 기술도 크게 발전하고 사례가 많이 나오고 있음을 알았기에 어떻게 익혀 볼까 고민만 하던 차에 반가운 책이 나왔습니다.


집어 들기 버겁도록 두꺼운 원서나 왜 번역했는지 모를 번역서는 있었어도, 비지도 학습을 주로 다룬 입문서는 많지 않았기에 정말 반가웠습니다. 인공지능, 머신러닝을 처음 접하는 독자는 다른 좀 더 얇은 입문서를 먼저 읽고 나서 이 책을 봐도 좋겠습니다. 제가 봤을 때에 이 책은 지도학습에는 낯설지 않은 독자를 대상으로 합니다.

 

목차로 훑어 봐도 살짜기 놀랄 만큼 상당히 폭넓은 주제를 다룹니다. 데이터 분석, 이미지 인지 등 비지도 학습으로 할 수 있는 전반을 모두 경험하도록 꾸몄습니다. 중간 중간 입문자에게 어려울 수 밖에 없는 부분마다 친절한 역자주가 도움말을 줍니다. 이 책이 가진 장점 중 하나입니다. 텐서플로/케라스, Scikit-learn을 두루 쓴 것도 좋아 보입니다. 비즈니스에 따라 사이킷런으로 충분한 때도 많기 때문입니다. GPU 쓰기가 부담될 때가 좀 있기도 합니다.


이 책으로 독학을 한다고 하면 거의 매일 일정 분량을 실습하고 트러블 슈팅을 한다는 전제 하에 못해도 두 달은 걸리지 않을까 합니다. 석 달이 걸렸다고 해도 느리지는 않습니다. 그룹 스터디 용도로 쓰기에도 좋겠습니다. 중간 중간 좌절하는 독자에게는 '원래' 이런 책은 100% 이해가 안 가더라도 일단 끝까지 모두 끝내면 결국 남는다는 말씀을 드리고 싶습니다. 마냥 쉽지 않기에 시간을 들여 도전할 만하다는 현실도 상기하길 바랍니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo