-
-
밑바닥부터 만들면서 배우는 LLM - GPT를 내 손으로 직접 단계별로 만들어보면서 대규모 언어 모델의 기본기를 탄탄히 채우기
세바스찬 라시카 지음, 박해선 옮김 / 길벗 / 2025년 9월
평점 :
*출판사를 통해 도서를 협찬받아 작성한 리뷰입니다.
자주 서적리뷰를 통해 말씀드려왔지만, 제가 개인적으로 시간을 쏟고 있는 것중에 하나는 바로 프로그램 개발입니다. 그래서 정기적인 시간을 단순 프론트엔드와 백엔드를 포함한 풀스택을 넘어, 프로젝트 기획과 데이터분석에도 큰 관심을 갖고 있으며 새로나오고 자주 사용하는 어플리케이션을 보면서 하는 생각은 ‘이것은 어떻게 만들었을까’라는 것이죠. 매일 사용하는 거대언어모델(LLM)역시 다르지 않습니다. GPT와 퍼플렉시티를 통해 결과물을 만들면서도 한켠으로는 LLM을 어떻게 만들수 있지 라는 의문점이 끊이지 안았는데 이것을 다소 해소시켜준 서적이 바로 <밑바닥부터 만들면서 배우는 LLM>입니다.
LLM을 만드는 구조는 간단합니다. 단지 그것을 실행하는 방식이 어렵습니다. 기본적으로는 셀수없을 만큼의 많은 텍스트 토큰(Token)이 필요합니다. 현시점 기준으로 Chat GPT는 수조개의 토큰을 가지고 파라미터를 통해 지속적으로 학습을 시킬겁니다. LLM은 이러한 토큰을 기로 하여 사전학습(Pre-Training)과 미세조정(Fine-Tuning)과정을 거칩니다. 본서에 나오는 텍스트 데이터 다루기에 있는 토큰을 토큰 ID로 변환하기나 바이트페어 인코딩과 데이터 샘플링이 바로 사전학습과정이라면, 어텐션 매커니즘을 구현하고 모델링을 하는게 미세조정과정이라고 보면됩니다.
본서는 이 두가지 과정을 거쳐서 실제 사용할 수 있는 텍스트생성모델을 만들고 평가하는 과정들을 그대로 담고 있습니다. 단지 모델을 만드는 것을 넘어 GPT를 통해 텍스트 생성 후 손실률을 계산하고 파이토치로 모델을 로딩하고, 지도학습 데이터를 가지고 미세조정을 끊임없이 하도록 하죠. 따라서 현실적으로 본서를 완전하게 따라하고 마스터하는 것은 아무리 실전 전문가라도 상당한 시간이 걸릴텐데 바꿔말하면 그만큼 돈으로 환산하기 어려운 알짜 실무지식과 실습이 가득있다는 말입니다.
따라서 <밑바닥부터…>는 단순히 1-2회독으로 끝날 IT교양이나 실습서적이라고 보기에 어렵습니다. 본서는 1-2회를 한번 따라해서 현재의 LLM이 어떤 과정으로 만들어졌는지를 이해한 뒤에 개인의 프로젝트나 실습자료와 연계해서 다른 LLM을 만들어볼때 그 가치가 가장 빛날거라 생각합니다. 다행인것은 서적 말미에 더 읽을 거리와 연습문제들이 있고 이 내용들을 아마 끊임없이 실습해서 정말 ‘자기것이’ 된 이후에 진정한 LLM관련 개발이 가능할 것으로 보입니다. 아직 본서를 다 실습하진 못했지만 어느정도 분량을 해소한것 많으로도 상당히 역량이 늘어날 것으로 생각합니다.
‘쓰는 것을 넘어 만들어야 살아남죠’