LLM 서비스 설계와 최적화 - 비용은 낮추고 성능은 극대화하는 AI 서비스 구축과 운영 가이드
슈레야스 수브라마니암 지음, 김현준.박은주 옮김 / 한빛미디어 / 2025년 4월
평점 :
장바구니담기


"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."


아직은 따끈따끈한 책을 받았다. 한참 LLM, RAG, Agent에 관해서 공부했던 터라 이 책을 신청했다. 서두에 다양한 독자들에게 어떤 도움을 줄 수 있을지 정리해 놓은 것을 보고 나는 어떤 시각으로 이 책을 바라볼까 잠시 생각해 보았다. 얼마 전까지만 해도 AI실무자, 엔지니어 관점에서 봤을 건데 이제는 '교육자와 학생' 관점에 더 집중해야 할 것 같아서...결국은 '비용 최적화'에 수렴할 거라서 뭐 크게 다르지는 않겠지만...

1장 LLM 기초에서는 생성형AI와 LLM의 차이를 명확히 설명하고 있다. 혼용해서 사용하거나 헷갈려 하는 사람들이 그만큼 많다는 뜻이겠지.


그리고 생성형AI 챗봇 애플리케이션의 시퀀스 다이어그램에서 비용이 많이 드는 세 가지 구성 요소(모델 추론, 벡터데이터베이스, LLM)에 대해서 콕 찝어서 지면을 할애해 각각의 역할과 비용의 차이는 어디에서 발생하는지 설명한다. GPT-3.5 기준으로 벤치마크 테스트를 한 것은 살짝 아쉽기는 하다.


2장에서는 성능은 유지하면서도 비용을 최적화하는 기법이 대해서 다루고 있다. 딥마인드의 연구 결과(https://arxiv.org/abs/2203.15556)를 참고해 계산 예산을 추정해 본다. 아, 여기부터 머리가 복잡해지기 시작했다. 그냥 술술 읽어서 넘길 책이 아니라 내가 원하는 성능과 규모, 사용할 수 있는 비용을 설정하고 따라서 테스트하며 계산해을 해봐야 뭔가 남기겠는데... 일단 넘어갔다.


3장에서는 LLM에 중점을 두고 추론 비용을 절감하면서도 동일한 품질의 응답을 받을 수 있는 방법으로서 프롬프트 엔지니어링을 소개한다. 프롬프트 엔지니어링은 ChatGPT가 처음 나왔을 때부터 열심히 보고 테스트 해봤던지라 새롭진 않았는데, 캐싱에 대해서 잘 정리된 내용이 있었으면 하고 궁금했었다. 여기에서는 벡터스토어를 이용하는 방법에 대해서 설명한다. 뭔가 쫌 아쉽다......복잡도를 줄이는 방법으로 양자화도 간단한 코드와 함께 언급하고 있다. (AutoAWQForCausalLM)


4장에서는 효율적인 모델의 개발과 적용, 도메인에 특화된 모델, 추론 하이퍼파라미터 최적화 등에 대해서 다룬다. 회사에 있었을 때도 그렇고 지금도 그렇고 자원이 턱없이 부족해서 뭘 어찌 시작해야할지 난감한 부분이었기도 하다. 여기서는 성공적인 소형 모델 사례, 도메인 특화 모델들을 소개해주고 있는데, 도메인 특화 모델을 단계에 맞춰 직접 만들어 볼 수도 있겠다는 생각이 들었다. 허깅페이스의 Autotrain은 사용해보진 않았는데 한 번 사용해봐야겠다.


5장에서는 인프라 및 배포를 위한 튜닝 전략, 하드웨어 활용 극대화, 추론 가속화, 지속적인 성능을 보장하는 모니터링과 최적화를 다룬다. 아이러니하게도 여기까지 와서 트랜스포머에 대해서 다시 공부해야겠다는 생각이 들었다.


종합적으로는 이 책을 최적화의 시작으로 삼으려면 넘어야 할 산이 너무나 많다. 이 책은 LLM을 만들 때 고려해야 할 점을 단계적으로 차근차근 알려주고 있다. 하지만 다양하게 이것저것 경험을 많이 해봐야만 이 책을 더 효율적으로 활용할 수 있을 것 같다. 비록 짧은 시간 동안 훑어보았지만 SLM을 만들면서 고비를 넘어갈 때마다 필요한 부분을 참고해야겠다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo