물론 겉으로 보기엔 '챗GPT 입문서'처럼 보이지만, 실제로는 생성형 AI와 대규모 언어 모델 전체를 조망하고 있답니다.
책의 초반에는 챗GPT라는 서비스를 소개하고, 코드 실행 기능이나 이미지 입력, 맞춤형 GPT 같은 기능을 보여줍니다. 그런데 본서가 흥미로운 부분은 "왜 이런 기능이 가능한지, 그리고 그 기능에 어떤 구조적 한계가 있는지"까지 설명한다는 점입니다.
챗GPT의 답변이 항상 동일하지 않은 이유와 길어질 수록 중간 내용이 잘려나가는 듯한 현상을 단순히 '운이 나쁜 것'으로 넘기지 않고, 확률적 생성 방식과 모델의 특성을 이해해야 한다고 말합니다. 책을 읽어 나가다 보면 언어 모델, 토큰, 컨텍스트 길이 설명 등으로 자연스럽게 이어지면서, 독자로 하여금 '아 이런 구조여서 이런 현상이 나타나는구나'라는 깨달음을 줍니다.
이후 흐름은 AI 개념과 역사, 그리고 생성형 AI의 현재 상황으로 확장됩니다. 머신러닝과 딥러닝을 다루는 부분에서는 지도 학습, 비지도 학습부터 시작해, 신경망이 데이터에서 패턴을 찾아 오차를 줄이는 방식을 설명합니다.
특히 파라미터 수가 늘어나고 모델이 커질수록 성능이 변하는 '창발'현상까지 연결하며, '왜 이런 식의 접근이 필요한가'라는 배경과 직관에 지면을 할애하고 있답니다.
책의 저자인 '나카타니 슈요'는 일본에서 이미 머신러닝 입문서로 잘 알려진 인물로, 자신의 블로그와 칼럼에서 기술을 사용할 줄 아는 것과 왜 그런 구조가 나왔는지를 이해하는 것은 다르다는 점을 강조해 왔습니다.
예컨데, GPT가 트랜스포머 구조를 쓴다고 말하는 대신, 왜 RNN이나 LSTM으로는 긴 문장을 충분히 처리하기 어려웠는지, 그 한계를 넘기 위해 '어텐션 매커니즘'이 등장했고, 이것이 트랜스포머 구조로 발전해왔다는 사실을 스토리 텔링 식으로 쉽게 풀어내고 있습니다.
자연어를 컴퓨터가 다루는 형식으로 옮기는 과정에 많은 분량을 할애하는 점이 또한 인상깊었습니다. 문자 코드와 유니코드, 문장을 단어, 문자, 서브워드로 쪼개는 여러 방식, 그리고 단어를 벡터로 표현하는 발상과 그것이 대규모 언어 모델의 임베딩으로 어떻게 확장되는지 자연스럽게 이어집니다.
물론 뒤로 갈수록 이 부분들이 토큰, 임베딩, 컨텍스트 길이, RAG 같은 이야기와 맞물리면서 전체 구조 이해에 큰 도움이 되리라 생각합니다.
모델을 설명하는 부분에서는 언어 모델이 '다음에 나올 토큰이 확률 분포를 추정하는 함수'라는 개념을, 그림과 비유를 활용해 풀어냅니다.
거대한 파라미터를 가진 함수가 엄청난 양의 텍스트를 보며, 어떤 단어 다음에는 어떤 단어가 나올 가능성이 높은 지를 학습하고, 아주 작은 무작위성을 섞으며 새로운 문장을 만들어 내는 구조를 수식 대신 그림으로 쉽게 보여 줍니다.
로컬LLM과 거대 클라우드 모델의 관계를 균형있게 다루는 태도도 인상적이었습니다.
단순히 '작은 모델은 느리고, 큰 모델은 빠르다'는 도식이 아니라, 어떤 환경에서 어떤 크기의 모델을 경량화해서 돌릴 수 있는지, 그 과정에서 라이선스와 데이터 보호 이슈가 어떻게 얽히는지를 짚어 주고 있어 특히 실제로 자사 LLM을 구축하고자 하는 실무자들에게 도움이 될 것으로 보입니다.

더불어 실무자들에게 구체적이면서 실용적인 내용들도 많이 보입니다.
예컨데 API, RAG, Function Calling을 설명하는 과정에서 OpenAI API를 예를 들며 모델 선택과 비용 구조를 설명하되, 튜토리얼처럼 코드를 나열하지 않고, '왜 이런 파라미터들이 존재하고, 어떤 트레이드 오프를 조정하는지'에 집중합니다.
RAG에 대한 설명도 사내 문서를 LLM과 연결할 때, 왜 단순히 텍스트를 통째로 넣는 것이 아니라 임베딩과 벡터 검색을 통해 관련 부분만 뽑아야 하는지를 구조적으로 이해하기 쉽게 설명하고 있습니다.
마지막으로 환각, 편향, 보안, 철학을 다루고 있는데, 이를 통해 기술적 구조와 사회적 함의를 연결해서 바라보게 됩니다. 모델이 틀린 정보를 그럴싸하게 말하게 되는 구조적 이유, 특정 문화에 편향될 수밖에 없는 구조, 그리고 거대한 컴퓨팅 자원을 쥔 소수 기업에 권력이 쏠리는 문제까지 다룹니다.
물론 아쉬운 점도 있었습니다. 완전 비전공자 입장에서 '가볍게 훑는 챗GPT 입문서'로 기대한다면 생각보다 책에서 말하는 개념의 밀도가 높습니다. 한 번에 끝까지 읽기 보다는 관심있는 주제 단위로 나눠 읽는 것이 적합해 보입니다.
실용적인 프롬프트 예시나 업무 활용 사례를 다양하게 기대하는 독자들에게는 다소 부족할 수 있습니다. 본서는 구체적 비즈니스 워크플로우 보다 구조와 원리 이해에 초점이 맞춰져 있기 때문입니다.

본서를 읽고 난 후에는 아마 챗GPT를 바라보는 관점이 바뀌지 않을까 조심스럽게 예측해봅니다.
이전에는 경험과 시행착오로 한계를 파악했다면, 이제는 '이 부분은 토큰화 구조상 약점이 날 수밖에 없겠구나'. '이 작업은 로컬 LLM으로도 충분하고, 이 작업은 거대 모델이 필요하겠구나' 같은 식의 판단이 가능해 지리라 봅니다.
챗GPT를 많이 써 본 사람, 특히 정책, 기획, 개발 관점에서 AI를 다루는 사람이라면, 본서는 사고 체계를 한 단계 올려주는 역할을 할 것입니다. 기술의 구조와 한계를 이해한 상태에서 전략적으로 챗GPT를 활용하고자 하는 분들에게 매우 적절한 안내서가 되리라 믿습니다.
관심있는 분들의 일독을 권합니다.