파이토치와 구글 코랩으로 배우는 BERT 입문
아즈마 유키나가 지음, 김모세 옮김 / AK(에이케이)커뮤니케이션즈 / 2024년 1월
평점 :
장바구니담기


챗GPT가 재작년에 출시되고 자연어처리분야가 매우 핫하죠.  구글도 챗GPT에 뒤지지 않기위해 BARD를 출시했습니다. 물론 현재 챗GPT가 앞서가고는 있지만 현시점에서는 BARD도 무시하면 안되죠.  챗GPT와 BARD는 모두 트랜스포머기반 LLM입니다. 크기만 다를뿐이죠. 챗GPT는 GPT-3.5아키텍쳐를 쓰는데 비해, 구글의 BARD는 <파이토치와 구글코랩으로 배우는 BERT입문>에서 배울 BERT를 사용해서 트렌스포머 아키텍터를 사용하여 단어의 앞뒤문맥을 고려해서 학습하는 모델이죠.  챗GPT와 구글 BARD를 언급하는 이유는 그만큼 현재 LLM의 핵심이고 이를 익히는 것이 텍스트를 이해하고 익히는 데 매우 중요한 방법이기 때문입니다. 더우기 파이토치는 최근논문에 많이 사용되는 머신러닝 프레임워크로 텐서플로에 비해 간결하고 사용하기 쉽고 빠르고 효율적인 계산, 다양한 딥러닝을 지원하기에 최근 많은 개발자들이 공부하는 방식입니다. 거기다  개인들은 비용이 비싼 GPU를 개인컴퓨터로 돌릴 수가 없기에  구글코랩을 이용해서 GPT를 지원받아 머신러닝을 활용할 수있는 기반을 만들래서 BERT를 효율적으로 학습할 수있게 교육환경을 잡았습니다. 




저자는 아즈마 유키나가 SAI-LAB 대표십니다. AI교육과 연구개발을 하는 기업이라고 합니다. 학력은 도호쿠대 이학박사십니다. 도호쿠대는 일본의 명문대중에 하나이죠. Udemy에서 ai관련강의도 하시고  다양한 앱도 개발했다고 합니다. 한국에 이미 <파이토치 딥러닝 모델 AI앱개발입문>,<인공지능기술><처음만나는 AI수학 WITH PYTHON>등의 다수의 책이 소개된 인기 저자십니다. 



AI는 인공지능이죠. 지능은 인간의 특성입니다. AI는 그 인간의 지능을 구현하는 것이 최종목표겠죠 무겁긴합니다만 ㄷㄷ 이를 위해서는 인간의 언어를 이해해야 합니다. 그것을 자연어처리(NLP)라고 합니다. 이를 위해 딥러닝은 CNN과 RNN으로 기법을 개발해왔습니다. 이를  뛰어넘은 것이 트랜스포머라는 모델이죠. 이 방법은 어텐션 아키텍쳐를 사용하는 것으로 어텐션은 '문장안에 어떤 단어에 주목하면 좋은가를 나타내는 점수'이고 이 계산은 Query, Key, Value백터를 이용해서 점수를 계산합니다.   그럼 이 책의 핵심인 BERT는 어텐션아키텍처를 사용하는 트렌스포머를 양방향으로 이용하여 파인튜닝을 할수있게 하는 모델입니다. 이들의 구조와  구글코랩의 사용법까지 착실히 익힐 수있게 알려줍니다. 사실 개인이 딥러닝을 할수있는 방법은 구글코랩뿐이 없는 것이 현실이므로  구글코랩은 유료결제라도 해서 좀더 좋은 환경을 만들어야 합니다. 그리고 사용법을 익숙하게 해두어야 하고 그것을 저자는 유도하고 있습니다.  책을 기승전결 구조로 보면 전결이 BERT의 구조와 파인튜닝 그리고 마지막 실제 활용까지 알차게 구성되어 있습니다. 




이 책의 장점은 점층적 설명입니다. 챗터에 요약으로 시작해서 개념설명, 구성설명, 마지막은 요약정리로 마무리를 합니다. 이는 반복의 효과를 볼 수있고 여러번 학습하여 기억하게 했습니다.  그리고 컴퓨터 프로그램 용어는 매우 개념이 어럽고 복잡하고 설명이 길수가 있는데 대도록이면 짧고 그림을 이용해서 핵심만을 설명하고 구현순서를 먼저 알려주고  코드를 이용한 파이썬 코드를 IN,OUT형식으로 설명합니다. 다만 IN코드가 너무 길어서 OUT코드를 보는데 에로점은 있지만 이점도 2챕터정도 따라하다보면 불편하지 않게 됩니다. 여기에 필요한 부분은 공식문서로 URL링크를 해서 추가공부를 할 수있게 배려했습니다.  프로그램책이라 코드를 공부하는 것이 매우 중요한데 그것을 연습장을 마려해서 다시 학습을 합니다. 



Bert는 자연어처리에서 가장 핫한 모델이라고 할 수있습니다. BERT를 익히면서 파이썬과 딥러닝, 자연어처리, 구글코랩사용법과  페이스북이 개발한 파이토치를 사용한 딥러닝까지 익혔습니다.  그리고 BERT를 간단한 단계에서 파인튜닝을 이용한 활용과  일본 데이터셋을 이용해서 모델까지 뽑아내는 단계를 숙지하여 활용할 수있는 수준까지 능력을 올릴수있도록 구성했습니다.  그리고 BERT의 앞부분은 텐서프로가 익숙한 분들은 파이토치를 공부하는 것이 어렵지 않게 학습할 수있을 것이며  딥러닝이 아직 미숙한 분들은 파이토치를 통해 딥러닝의 용어와 프로세서 등을 다시 한번 다질수있는 기회도 됩니다. 이런 전반적 개념이해를 통해 BERT구현을 수월하게 배울 수있었습니다. 



본 도서는 출판사로부터 무상으로 제공받아 주관적인 리뷰를 했습니다. 


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo