한 권으로 배우는 도커 & 쿠버네티스 - 컨테이너 개념부터 쿠버네티스를 활용한 배포까지
장철원 지음 / 한빛미디어 / 2024년 4월
평점 :
장바구니담기


이 책에 대해서 정리해보려고 한다.

  1. 나온지 얼마되지 않아서 다른 입문서들에 비해서 최신 내용들이 많이 반영되어있다.

  2. 디테일한 실습코드와 내용들, 한줄한줄 설명을 해주신 정성

  3. 쿠버네티스 기초 내용 이후에 오는 간단한 배포 실습과 Github Action + ArgoCD, 모니터링까지

사실 한빛미디어에서 책을 리뷰하면서 가장 크게 느낀점은...

오라일리(O'Reilly) 책들이 만듬새라던지 내용의 질이라던지 그 부분이 가장 좋았었다.

사실 그렇다보니 책을 고를때도 가급적 오라일리 책만 고집하다가 이번에는 번역서가 아닌 책을 받게 되었는데,

처음에는 너무 좋지 않은 점만 보지 않을까 걱정을 조금 했다.

하지만 생각보다 실습내용들에 대해서 디테일한 설명들도 너무 좋았고, 기본적인 내용들로 꽉꽉 차있어서 상당히 알찬 책으로 느껴진다.

다만 몇가지 아쉬운 점은 역시 존재했다.


자세한 내용은 블로그를 참고해주세요https://blog.naver.com/ab415/223455866610


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
러닝 레이 - 대규모 모델 훈련에 효율적인 라이브러리로 빠르게 구현하는 파이썬 분산 처리
막스 펌펄라.에드워드 옥스.리처드 리우 지음, 김완수 옮김 / 한빛미디어 / 2024년 1월
평점 :
장바구니담기


ML을 하면서 분산 컴퓨팅 및 HPO에 대한 필요성은 안느낄래야 안느낄 수 없는.. 반드시 알아야하는 내용중 하나라고 생각한다.

리뷰에서는 다루지 않았지만 실제로 Ray Tune을 활용한 HPO도 존재하지만 아마 일반적으로 딥러닝을 하는 사람들이라면 Wandb Sweep, Optuna 등과 같은 툴들도 분명 들어봤을 것이다.
하지만... 사실 Ray의 HPO툴보다는 위에서 언급한 Wandb의 sweep을 애용하지 않을까 싶긴한데... 강화학습을 다루는 분들이라면 RLlib과 함께 활용하기에는 충분히 좋아보이긴 한다.

그리고 가장 아쉬운 점이 있었다.
이건 이전에도 다른 책에서도 느낀것인데 책에서 제공하는 코드가 너무 오래된 것이다.
ipynb 노트북 파일들을 보면 전부 2년전의 내용들이다.

MLFlow를 공부하면서도 느꼈던 것은 이러한 툴들은 메인 버전뿐만이 아니라 마이너 버전이 바뀌더라도 사용법이나 종속성버전의 경우가 빠르게 바뀌고 있던 에러가 없어지기도하고 없던 에러가 발생하기도한다.

실제로 노트북을 통해서 실습을 하는 동안 pydantic 버전이 맞지 않는다거나 기타 다른 라이브러리 에러도 많이 발생했었고, 새로운 것을 배운다는 신기함이나 재미는 있었지만, 아쉬움이 계속 느껴졌다.
하지만 그래도 이책을 통해서  파이썬의 영원한 친구인 GIL(GIL이 삭제될 것이라는 희망적인 기사가 23년 8월에 나왔었다_링크) 때문에 고통 받았던 사람들, Multiprocess를 활용해서 병렬처리만 해보았던 사람들에게 분산 컴퓨팅 프레임워크인 Ray가 어떻게 동작하는지, 어떻게 활용하는지를 알려주는 책이 그리 많지 않다.

기본 Document도 잘나와있다는 이야기도 있으니 책에서 아쉬은 점은 공식 Document를 참고해서 더 보도록 하자.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
머신러닝 엔지니어링 인 액션 - 머신러닝 엔지니어링 개념부터 프로덕션까지 성공적인 머신러닝 프로젝트 구축하기
벤 윌슨 지음, 김대근.심대열 옮김 / 한빛미디어 / 2023년 12월
평점 :
장바구니담기


실제로 이 책의 저자는 이전부터 많은 일을 해오셨고, 개발 뿐만 아니라, ML, 통계, 데이터 분석 등등 다양한 업무를 해왔기에 하나의 프로젝트에 대해서도 다양한 사항들을 고려하고 그 내용들을 어떻게 해결하는 지에 대해서 많은 경험이 쌓여있음이 느껴진다.

간간히 나오는 개발 코드들은 대부분이 파이썬이지만, 실제로 분산처리를 위한 아파치 스파크에 대한 내용도 잠깐 나오고, 통계모델을 통해서 원시 데이터에 대한 분석 및 전처리 방법 등 다양한 경우의 수와 프로세스에 대해서 상세하게 알려주고 있다.

마치 옆에서 (인강) 선생님이 하나하나 알려주는 듯한 느낌이다.

실제로 이런 시니어나 선배가 계셨었더라면 좀 더 많은 것을 배워갈 수 있지 않을까 싶은 내용들이기도 했다.

Databricks에서 일하시는 것을 느낄 수 있는, MLFlow에 대한 내용과 실제 아파치 스파크와 어떠한 프로세스로 프로젝트를 빌딩하는지에 대해서도 순서도로 깔끔하게 정리되어 있다.

하지만 너무 딥하게 받아들여서 문제인 것인지는 모르겠지만, 스파크에 대한 지식이 없기에 단박에 이해는 되지 않았다.

그 외에도 9장에서는 "테스트 가능하고 읽기 쉬운 코드 작성"처럼 기본적으로 파이썬을 활용해서 코드를 어떻게 작성해야 할지에 대한 라인별로 설명이 존재한다.

실제로 336페이지 ~ 341페이지에 걸쳐서 하나의 스크립트가 나오고 클래스에 대한 메서드 설명들 뿐만 아니라 메서드에서 사용되는 인자들에 대해서까지 디테일하게 설명해주고 있다.

이후에는 유닛 테스트, 파이썬 코드에서의 네이밍 규칙 및 구조, 캡슐화 및 모듈화, 에러 잡는 try/catch

ML 서비스에선 빼먹을 수 없는 드리프트 및 모니터링, 로깅 등 솔직히 이번 리뷰기간 동안에 받은 이 책을 반의 반의 반도 받아들이지 못한 것 같다.

자세한 리뷰는 블로그를 참고해주세요

https://blog.naver.com/ab415/223303028270


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
만들면서 배우는 생성 AI - 트랜스포머부터 GPT, DALL·E 2, 스테이블 디퓨전, 플라밍고까지 O'reilly 오라일리 (한빛미디어)
데이비드 포스터 지음, 박해선 옮김 / 한빛미디어 / 2023년 9월
평점 :
장바구니담기


생성모델.. 정말 쉽지 않다.
최근에 들어서는 Web UI를 활용해서 너도나도 이미지 생성도 해보고, ControlNet, LoRA 등등 다양하게 이에 붙여서 누구나 만들어 볼 수 있도록 활용적인 측면에서는 진입장벽에 매우 낮아졌지만,
이론적으로 접근했을때, 이 영역은 결코 쉽지 않은 영역임에 틀림 없다.

실제 Diffusion의 이론역시 엄청 간단하게, Noise를 점차 더하고, 점차 뺀다. 라고만 설명했지만 사실 이 배경에는 엄청난 수학적인 식들이 존재하고, 이전에 나온 에너지 베이스 모델, 노멀라이징 플로 모델 역시 책을 보면서도 아직 멀었다라고 밖에 안느껴졌다.

이 책은 그만큼 다양한, 거의 모든 생성모델에 대해서 다루고 있으며, 이 책에서 모르는 내용들을 찾아보면서 공부해나가면 틀림없이 생성모델에 대해서는 유사 전문가 타이틀까지도 달 수 있지 않을까 싶다.

무엇보다 Part 3에서 이러한 생성모델들에 대해서 활용 방법들이나, 다양한 생성모델들을 접할 수 있어서 정말 좋은 책이었고, 현재 회사에서도 비슷한 생성모델을 다루기에 업무에도 큰 도움이 될 것 같았다.
+. Part3도 내용이 만만치 않음은 절대 잊지 말자.
자세한 내용은 블로그를 참고해주세요
https://blog.naver.com/ab415/223249900784


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
견고한 데이터 엔지니어링 - 데이터 파이프라인 설계와 구축의 핵심 원칙 O'reilly 오라일리 (한빛미디어)
조 라이스.맷 하우슬리 지음, 김인범 옮김 / 한빛미디어 / 2023년 6월
평점 :
장바구니담기


이 책은 전공서적같다.

데이터 엔지니어링 업무를 희망하거나, 하고있거나, 그 업무를 하는 사람들과 협업을 하기 위해선 그들에 대해서 이해가 필요할 것이기에 이 책이 더욱 필요할 것 같다.

공부하는 사람들의 경우에는 이 책 한권을 잡고 스터디를 진행해도 좋을 것이고, 데이터 관련 업무를 하는 팀이라면, 팀 단위로 책의 내용을 리뷰하면서 어떻게 나아갈지?

만약 어느정도 영향력이 있는 위치에 있다면, 회사에서 데이터관련 된 업무를 하며 주의해야할 점은 무엇일지, 아니면 모자란 부분은 무엇일지를 다시 한 번 생각해보기에 좋은 책인 것 같다.

아직은 내용이 어렵다...

책을 보면서도 모르는 단어들도 종종 나오고, 뭔가... 뭔가 실습책이 아니라서 더 읽히지 않는 것도 있는 것 같다.

사실은 워낙 글 읽기를 꺼리는 특징이 있는 사람인지라 책과는 거리가 다소 먼 편이지만,

그나마 IT서적, 코드가 있는 책들에 한해서 조금 친한 편이었다.

이 책을 보면서 전공 이론 서적이.. 자꾸 떠올라서 조금 힘들었던 느낌도 들었다.

다시 한번 정리하지만... 진짜 좋은 책임에는 틀림이 없다.

다만 내가 데이터 엔지니어가 아닐 뿐, 해당 배경지식이 있는 사람들이라면 충분히 몰입하면서 보게 될 것이라고 예상한다.

후배 이 책 새줘야지


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo