우리의 미래는 어떤 모습일까?
현재 인공지능, 특히 AGI에 대해서는 두 가지 시나리오가 있습니다. 첫 번째는 특히 실리콘밸리 빅테크에서 일하는 많은 사람들이 지지하는 시나리오입니다. 바로 인공지능이 AGI에 도달하는 순간 우리 인간이 멍청해서 풀지못했던 문제를 다 해결해 줄 거라고 믿는 것입니다. - P10
그래서 AGI를 최대한 빨리 만들어야 하고, AGI를 향하는길에 걸림돌, 특히 국가 규제 같은 것들을 다 없애야 한다는 것이 이들의 요지입니다. - P10
AGI가 인간에게 가져다줄 장기적 혜택이 너무나 크기 때문에 단기적 사회, 경제, 정치적 문제에 너무 집중해서는 안 된다는 이런 주장을 보통 효과적 가속주의 EffectiAccelerationism (e/acc)라고도 부릅니다. - P11
(전략). 대부분 계속 인공지능한테 쫓겨 다니고, 또 한쪽에서는 사람들이 막 기도를 하기 시작하더라는 겁니다. 이게 바로 두 번째 시나리오입니다. - P11
우리가 지금 서 있는 이 시점은, AGI가 아직 완전히 모습을드러내기 전 마지막으로 우리에게 주어진 극히 짧은 ‘골든아워‘ 일지도 모릅니다. 기술은 하루가 다르게 발전하고 있고, 논의는이미 실존적 위기로 확장되고 있습니다. - P12
AGI를 향해 전 세계가 서로 앞다투어 달려가는 이 시점에우리에게는 마지막 선택권이 주어져 있습니다. 지금 우리에게 필요한 것은 무조건적인 낙관도 무조건적인 비관도 아닌 바로 현실적인 준비입니다. - P13
2장
생성형 AI의 출현
(전략). 그런데 지난 5년 동안 언어 문제를 푸는 과정에서 ‘생성형AI‘ 라는 두 번째 혁신이 있었습니다. 흥미로운 사실은 언어 문제가 해결되니까 나머지 문제들도 덩달아 해결되기 시작했다는 것입니다. - P58
바로 엔비디아NVIDIA 입니다. 엔비디아는 병렬 처리를 아주 효율적으로 할 수 있는 새로운 반도체구조, GPU를 제안했습니다. - P58
덕분에 이런 기술을 가속기 accelerator라고 부르게 됐습니다. 말하자면 이게 신의 한 수였습니다. - P59
언어는 어떻게 풀 수 있을까?
연구자들이 이 문제를 해결하려고 별별 방법을 다 생각했습니다. 개중에는 RNN, LSTM 같은 것들이 있습니다. 결과적으로 우리가 풀고 싶었던 건 이것입니다. - P60
기존에 시간축 데이터를 분석할 때는 러시아 수학자 마르코프 Andrey Markov가 제안한 마르코프 가설을 많이 썼습니다. 어떤 가설이냐면 지금 이 순간, 어느 특정 시점의 데이터를 이해하는데 가장 중요한 건 바로 직전의 데이터라는 가설입니다. - P62
그런데 현실에서는 그렇지 않았습니다. 언어를 예로 들어볼까요? 단어 30개로 구성된 긴 문장이 있다고 가정해 봅시다. 30번째 단어를 이해하는 데 가장 중요한 역할을 하는게 정말 29번째 단어일까요? 대부분 그렇지 않습니다. - P62
이 말은 뭐냐하면, 언어는 시간축 데이터인데, 인과관계가선형이 아니라 뒤죽박죽이라는 의미입니다. 그렇다보니 마르코프 가설로는 도저히 분석이 안 됐던 것이지요. - P63
결국 문제는 이것입니다. 긴 문장의 맨 마지막 단어가 무엇으로부터 얼마나 영향을 받는지, 그게 뒤죽박죽이라는 것이지요. - P64
새로운 아이디어가 필요했지요. 그래서 인공지능으로 인간의 언어 문제를 풀고자 했던 과학자들이 오래된 언어학논문들을 찾아봤습니다. 1957년에 퍼스John Rupert Firth라는 영국 언어학자가 이런 얘기를 했습니다. "도대체 의미라는게뭘까?" 그가 제안한 아이디어는, 단어의 의미가 근처에 있는 단어에 의해서 정해진다는 것입니다. - P65
예를 들어 귀여운 고양이‘ 같은 조합은 자주 발견할 수 있지만, ‘공부 잘하는 고양이‘는 거의 없습니다. 반대로 ‘교수‘라는 단어를 보면 어떨까요? 저는 평생 ‘귀여운 교수‘라는표현을 들어본 적이 없습니다. 확률이 거의 0에 수렴할 겁니다. - P66
그럼 우리가 하는 건 뭘까요? 단어의 문맥을 보자는 겁니다. 이게 새로운 접근 방법이었습니다. 지금까지 단어라고 했지만, 사실 인간 언어의 단위는 단어가 아니라 더 잘게 쪼갤 수 있습니다. 토큰token이라는 단위로 쪼갤 수 있지요. - P66
이런식으로 모든 단어를 임베딩하기 시작했습니다. 그다음에는 뭘 했을까요? 앞에서 이야기했듯이, 언어에서 문장은 여러 단어로 이루어져 길게 이어집니다. 그리고 문장 내에서는 단어들이 서로 뒤죽박죽으로 영향을 줍니다. - P68
이제 단어의 순서보다 더 중요한 것은 단어가 등장하는 주변 단어들, 그러니까 ‘문맥‘이라는 걸 깨달은 것입니다. - P69
이 방법을 집중 스코어 attention score라고 부릅니다. 문장이 있으면 어디에 집중해야 할지, 그걸 계산하면 되는 것입니다. 여러가지 계산 방법이 있고, 이를 제대로 표현하기 시작한 게 트랜스포머 알고리즘Transformer Algorithm 입니다. - P69
문제는 데이터가 많으면 해결된다
하지만 중요한 건 이렇게 언어를학습하기 위해서는 정말 많은 예제, 데이터를 필요로 한다는 것입니다. 예를 들어, 한 작가의 문장만 학습시키면 그 작가의 스타일만 배우게 되니까 보편적인 언어 사용 패턴을 학습하지 못하겠지요. - P70
(전략). 이걸 컨텍스트길이 context length라고 하는데, 이게 가장 중요한 파라미터 중 하나입니다. 컨텍스트 길이가 길수록 더 많은 걸 이해할 수 있습니다. 초기 챗GPT는 앞뒤 100~200개 단어를 봤지만, 최신 모델들은 앞뒤 1,000만개 단어를 보고 이해합니다. - P71
이런 집중 스코어 관계를 학습한 걸 우리는 거대 언어 모델 Large Language Model(LIM)이라고 부르고 있습니다. - P71
참고로 말하자면 지금 AI 시장에서 빼놓을 수 없는 존재가된 엔비디아에는 큰 리스크가 하나 있습니다. 지금 AI 연구에서엄청난 양의 고성능 GPU가 필요한 이유는 트랜스포머 알고리즘이 너무 비효율적이라 계산량이 천문학적이기 때문입니다. - P72
하지만 일단 지금은 엔비디아가 거의 독점하고 있습니다. 2등은 AMD, 3등은 인텔인데, 인텔은 기술력이 없고 AMD는 하드웨어 기술력이 꽤 있습니다. 그런데 문제는 엔비디아가 GPU를 만들면서 CUDA라는 소프트웨어 환경을 같이 만들어 놨다는 사실입니다. - P73
|