-
-
구글 BERT의 정석 - 인공지능, 자연어 처리를 위한 BERT의 모든 것
수다르산 라비찬디란 지음, 전희원.정승환.김형준 옮김 / 한빛미디어 / 2021년 11월
평점 :
절판

구글 BERT는 2019년 10월에 최신 알고리즘 업데이트 BERT(Bidirectional Encoder Representations from Transformers)를 발표했습니다. 이는 최근 5년간 구글의 가장 큰 변화라고 지칭할 정도입니다. 구글은 BERT 모델 도입을 통해 그 어느 때보다도 사용자들의 검색 의도를 잘 이해할 수 있을 것입니다.
BERT는 검색 문장의 단어를 입력된 순서대로 하나씩 처리하는 것이 아니라 한 문장의 모든 단어의 연관성을 이해하며 검색 문장을 처리하는 모델입니다. 그러므로 BERT는 검색 문장의 전체적인 맥락을 고려하기 때문에 검색 문장에 담겨있는 사용자의 진짜 의도를 이해하는 능력이 뛰어납니다. BERT 알고리즘은 자연어 처리와 관련된 딥 러닝 알고리즘입니다. 기계가 문장의 단어가 의미하는 바를 이해하는 데 도움이 됩니다.
알고리즘이 자체적으로 대략의 데이터를 스스로 읽고 학습하는 방식으로 단어의 문맥, 관계 등을 판단하고 예측하는 자연어 처리 언어 모델에 대해 자세하게 담고 있는 구글 BERT의 정석을 소개합니다.

인간보다 언어를 더 잘 이해하고 구현하는 고성능 AI 언어 모델 BERT에 대한 내용을 담고 있는 구글 BERT의 정석은 인공지능, 자연어 처리를 위한 모든 것을 알려줍니다. 가장 먼저 사전 학습을 개선하여 성능을 향상하는 ALBERT, BART, SpanBERTa, RoBERTa, VideoBERT와 같은 BERT 변형 모델을 간단한 언어로 잘 풀어서 친절하게 설명합니다.

다음으로 BioBERT 및 ClinicalBERT와 특정 도메인에 해당하는 BERT 모델을 배우고, BERT의 재미있는 변형 모델인 VideoBERT도 살펴볼 수 있습니다. 그리고 이 책의 가장 매력적인 부분은 본문 맨 뒤에는 한국어에 잘 동작하는 한국어 언어 모델 KoBERT, KoGPT2, KoBART를 추가 집필되어 있는데요. 책의 순서대로 따라 모든 학습을 마치고 나면, BERT와 변형 모델을 활용해 여러 자연어 처리 태스크를 수월하게 처리할 수 있을 것입니다.
PART1에서는 BERT 시작하기로 트랜스포머 입문, BERT 이해하기, BERT 활용하기 통해 기초적인 부분에 대해 배울 수 있는데요. 1장은 트랜스포머 모델에 대해 자세히 설명합니다. 트랜스포머의 인코더와 디코더의 구성요소를 자세히 살펴보면서 어떻게 작동하는지 배울 수 있습니다.


2장 마스크 언어 모델링(MLM)과 다음 문장 예측(NSP) 태스크를 사용해 BERT 모델을 사전 학습시키는 방법을 설명합니다. BERT 모델 자체를 이해하고, 하위 단어 토큰화 알고리즘에 대한 내용을 배울 수 있습니다.
3장 사전 학습된 BERT 모델을 사용하는 방법을 설명합니다. 사전 학습된 BERT 모델을 사용해 문맥을 고려한 단어 및 문장 임베딩을 추출하는 방법을 익힐 수 있습니다. 그리고 질문 응답, 텍스트 분류 등과 같은 다운 스트림 태스크에 맞춰 사전 학습된 BERT를 파인튜닝하는 방법에 대해 담고 있습니다.
PART 2에서는 BERT 파생 모델인 ALBERT, RoBERTa, ELECTRA, SpanBERT, 지식 증류 기반 종류에 대해 알아 볼 수 있습니다.

PART 3는 BERT 적용하기로 텍스트 요약을 위한 BERTSUM 탐색, 다른 언어에 BERT 적용하기, sentence-BERT 및 domain-BERT 살펴보기, VideoBERT, BART, 한국어 언어 모델인 KoBERT, KoGPT2, KoBART 등에 대해서 배울 수 있습니다.

자연어 처리에 대해 익힐 수 있는 책은 많이 있는데요. BERT의 알고리즘을 통해 큰 텍스트 본문에 사용할 수 있는 자연어 처리 사전 훈련 방식을 궁금한 독자분들에게 구글 BERT의 정석 책을 추천합니다.
구글 BERT의 정석의 핵심은 당신이 알아야 할 BERT의 모든 것을 다루며, BERT의 기본 개념부터 다양한 변형 모델과 응용 사례까지 모두 담고 있습니다. 그리고 원서에 없는 친절하고 상세한 역자 주석으로 부족함 없이 가득 채워져 있는데요. 구글 BERT 자연어 처리 실력 향상을 위해 연습 문제와 해답을 제공하고 있습니다.
이 책은 자연어 응용 분야에서 상당한 성능 향상을 이뤄 주목받고 있는 BERT 모델을 기초부터 다양한 변형 모델, 응용 사례까지 한 권으로 담은 실무 지침서입니다.
책의 예제 소스 코드는 저자의 깃허브에서 다운로드 할 수 있습니다.
https://github.com/packtpublishing/getting-started-with-google-bert
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."