음성인식은 이미지나 영상인식과 마찬가지로 음성의파형이라는 방대하고 복잡한 데이터를 다루는 일입니다. 인공 신경망이라는 거대한 모델이 마찬가지로 탁월한 능력을 발휘할 수 있을거라 생각했죠. 그뿐 아니라 시간의 흐름에 따라 순서대로 구성되는시계열 형식도 학습할 수 있는 순환 신경망 Recurrent Neural Network, RNN이라는 인공 신경망 구조도 고안해 냅니다.
_ 스마트 스피커 중- P223
기계번역에서 인코더가 문장의 의미를 압축해낼 수 있다는 데 착안해 자연어 이해 모델인 버트가 등장했고, 디코더가 문장을 생성하는 데서 착안해 자연어 생성 모델인 GPT-3가 등장했습니다. 두 모델 모두 매우 뛰어난 성능을 보여주죠. 무엇보다 이 모든 혁신이 트랜스포머 모델에서 시작됐다는 점이 중요합니다. 트랜스포머 모델은 이제 자연어 처리를 넘어 최근에는 이미지나 음성인식에까지 널리 쓰이고 있습니다.
_ 기계번역 중- P277
이처럼 진정한 인공지능을 갖춘 챗봇을 만드는 일은 매우 어려운과제입니다. 최근에는 챗GPT가 주목할만한 성과를 보여주고 있지만, 답변의 윤리성에 대한 논란은 여전히 지속되고 있죠. 무엇보다 챗봇 같은 ‘생성‘ 모델에게는 사소한 실수조차 용납되기 어렵습니다. 자율주행차의 단 한 번의 신호 위반이 치명적인 결과를 초래할 수 있는것처럼, 챗봇 또한 히틀러를 찬양하는 등의 부적절한 발언을 단 한번이라도 한다면 그 파장이 매우 클 수 있기 때문입니다.
_ 챗봇 중- P296
.
• 데카르트의 좌표 덕분에 기하학을 방정식과 숫자로 표현할 수 있게 되었다.
• 섀넌의 디지털 논리회로와 정보 이론 덕분에 컴퓨터는 모든 정보와 숫자를 계산할 수 있게 되었다.
_ 챗봇 중- P305
여기까지 위치가 갖는 의미와 거리를 계산하는 방법을 모두 살펴봤습니다. 다시 원래 주제였던 단어 유사도의 문제로 돌아와보죠. 벡터 공간에서 한 단어와 각도가 작은 다른 단어, 즉 코사인 거리가 가장 가까운 단어를 유사한 단어로 판단할 수 있다고 했습니다. 그렇다면 ‘예금 금리‘와 ‘저축이자‘는 가까운 위치에 있을 것이고 이제 둘은서로 유사한 단어로 판단할 수 있겠죠. 문장도 마찬가지입니다. 문장전체를 벡터로 잘 표현해 내면 거리가 가까운 문장을 유사한 문장으로 볼 수 있지 않을까요?
_ 챗봇 중- P315
이 덕분에 챗GPT는 대중의 모든 관심을 사로잡았죠. 서비스를 공개한 지 불과 5일 만에 사용자 100만 명을 넘겼고, 40일 후에는1,000만 명을 넘겼습니다. 특히 5일 만에 사용자 100만 명을 넘긴 건역대 가장 빠른 기록입니다. 넷플릭스가 3.5년, 트위터가 2년, 페이스북이 10개월, 인스타그램이 2.5개월이 걸렸던 기록을 챗GPT는 단 5일 만에 깨트린 것이죠.
_ 챗봇 중- P345
이루다가 대화하는 방식도 질의응답과 유사합니다. 앞서 이루다는 언어 생성 모델이 아니라고 했죠. 이루다는 카톡 대화 데이터에서 추출한 1억여 개의 답변 데이터베이스를 미리 구축한 후 직전까지 진행한 대화를 바탕으로 가장 적절한 답변을 출력으로 골라내는, 사실상 언어 이해 모델입니다. 여기서 대화를 벡터로, 즉 숫자로 바꾸는 역할을 바로 버트가 처리하죠.
_ 챗봇 중- P357
우리가 지금까지 살펴본 버트 같은 언어 이해 모델이나 GPT 같은생성 모델은 모두 숫자로 표현하고 확률을 계산할 뿐입니다. 질의응답도 마찬가지입니다. 그저 정답의 위치만을 찾을 뿐이었죠. 컴퓨터는 마치 사람처럼 또는 사람을 능가하는 수준으로 정답을 잘 찾아내지만 결국은 숫자로 표현한 확률을 따라 행동할 뿐입니다. 존 설이 얘기하는 중국어 방 사례에 부합하는 경우라고 볼 수 있죠. 그렇다면 존설의 주장대로 기계가 ‘생각‘한다고 볼 수는 없을까요?
_ 챗봇 중- P362