요즘 생성형 AI가 화두이다. 다양한 분야에서 생성형 AI를 활용하려고 하고 있고 이미 활용하는 곳 또한 많다. 그렇다면 생성형 AI가 무엇인지 정도는 알아야 하는데, 단순히 개념과 사용법만 알아서는 좀 아쉬운 마음이 들 수 있다. 그럴 때 이 책을 통해 생성형 AI가 어떻게 자연어를 처리하는지 방법을 알 수 있다. 이 책은 현직 초등학교 교사와 컴퓨터교육학과 교수님이 함께 집필한 책이다. 그래서인지 일반적인 책에서라면 그냥 "다 알겠지" 라고 생각하고 넘어가는 부분 조차 자세하게 설명하고 그림으로 풀어놓았다. 아마 데이터 쪽으로 관심이 있거나 생성형AI 같은 인공지능에 관심이 있는 사람이라면 기초부터 다지기에 아주 적절한 책이 아닐까 생각한다. 총 4개의 파트로 구성되어 있는데, 1에서 3의 챕터까지는 자연어 처리의 기초부터 딥러닝, 실제와 활용을 다루고 있다. 그리고 마지막 4는 거대 언어 모델과 생성형 AI에 대한 소개가 이어진다. 어떤 것이 생성형 AI인지 감도 없다는 사람은 챕터 4부터 읽어보아도 좋을 듯 하다.
첫번째 챕터에서는 자연어 처리에 대한 이야기가 나온다. 자연어를 어떻게 처리하는지, 언어학에 대한 기초부터 시작해서 어휘, 구문, 그리고 이 텍스트들을 어떻게 나누고 필요 없는 부분들을 제거하는지에 대해 설명하고 있다. 이렇게 말로도 쉽게 표현되어 있지만 그림으로도 설명되어 있어서 어휘, 품사 이런 것들에 당황하지 않고 금세 적응할 수 있는 장점이 있는 책이다. 물론, 데이터와 관련된 분야에서 사용하는 단어들도 아주 쉽게 설명되어 있어 그 동안 알고 싶었던 부분을 제대로 알아가는 시간이 되어주었다. 개인적으로는 토큰이나 정규화에 대한 부분이 명확하지 않았는데 이 책만큼 명확하고 쉽게 설명한 개념은 본적이 없는 듯 하다. 그리고 이를 바탕으로 딥러닝 기반 자연어 처리와 실제와 활용에 대해서 다룬다. 좀 어려울 수도 있는 내용이지만 그림으로 쉽게 표현되어 있어 지도학습, 비지도학습 등 우리가 꼭 알아가야 하는 개념들에 대해 아주 쉽게 설며오디어 있다. 기린과 고양이 그림이 등장하면서 마음을 좀 편안하게 해주는 역할도 하는 듯 하다.
마지막 챕터에서는 챗GPT와 빙, 제미나이, 하이클로바 등의 언어모델에 대한 소개가 이어진다. 많이 들어본 것은 챗GPT가 가장일텐데 그 외에도 다양한 언어 모델이 있다는 것을 알 수 있었으며, 빠질 수 없는 윤리적 문제에 대해서도 짚어주고 있다. 이 책의 대상은 누구나가 될 수 있을 것이다. 데이터 처리와 그 과정에 대해 쉽게 설명하고 있어서 이 분야에 관심을 가진 사람들에게 충분한 시작점이 되어줄 것 같다. 생성형 AI를 사용하는 데 그치지 않고 어떤 과정으로 우리가 사용할 수 있게 되었는지, 이를 만드는 과정에 대한 이해 또한 이 한 권의 책으로 가능하다. 생성형 AI와 그와 관련된 과정, 언어모델이 궁금한 사람이라면 이 책으로 기초부터 닦을 수 있다고 말할 수 있다.