AI가 인간의 특정 능력 하나를 대체하는 기술이라면 AGI는 범용 인공지능 Artificial General Intelligence, 즉 인간의 모든 또는 대부분의 능력을 대체하는 기술이라고 할 수 있습니다. - P-1
인공지능 시대에는 기술을 지배하는 자가 동시에 사회와 정치도 지배해야 한다는 기술봉건주의Technofeudalism - P-1
인터넷의 역사를 다시 한번 되새겨 봄으로써 인공지능의 미래를 상당히 많은 부분 예측해볼 수 있습니다. - P-1
아무리 좋고 훌륭한 기술이라 해도, 결국 그 기술을 직접 체험하는 사람의 니즈와 욕구, 상상력에 따라 사용 범위가 결정될 수밖에 없습니다. - P-1
인공지능 발전 초기에는 두 가지 문제를 풀고 싶어 했습니다. 첫 번째로 인간과 대화가 가능한 기계를 만들고 싶었고, 두 번째로 세상을 알아보는 기계를 만들고 싶었습니다. - P-1
"우리 인간은 어떻게 세상을 알아보지?" - P-1
"그럼 기계에도 학습기능을 부여하자" - P-1
데이터에서 확률적인 관계를 뽑아낼 수 있는 학습 기능 - P-1
1990년대에 인터넷이 등장하면서 상상을 초월할 만큼 데이터가 많아졌다 - P-1
알고리즘을 크게 개선하지 않은 상태에서도 더 많은 데이터를 학습시키거나 모델을 더 키우면, 풀리지 않았던 문제가 거의 자동으로 풀리기 시작한다 - P-1
이제는 다량의 데이터에 있는 확률적인 패턴을 인식해서 예측할 수 있게 되었습니다. - P-1
이 세상에 있는 현상 대부분은 거의 무한의 다양성을 가지기 때문에 설명으로 그 무한의 다양성을 완벽히 표현할 수 없다 - P-1
무한한 다양성을 가지는 이 세상을 전부 설명해서 매칭시킬 수는 없다 - P-1
인간의 신경세포를 서로 연결하면 논리 연산이 가능하다 - P-1
인공 신경세포들을 더 정교하게 연결했더니 물체 인식이 가능하더라 - P-1
포토다이오드와 트랜지스터를 연결해서 이걸 하드웨어로 만들었습니다. - P-1
인공 신경세포는 세포 하나를 말하고, 신경망은 많은 게 연결된 걸 말합니다. - P-1
이론적으로 퍼셉트론의 층을 쌓아주면 모든 비선형 문제를 풀 수 있습니다. 수학적으로는 3층까지만 쌓아도 이 세상 모든 문제를 풀 수 있게 됩니다. - P-1
퍼셉트론을 만들 때 가장 중요한 건 신경세포와 신경세포 사이의 연결고리 즉, 시냅스synapse라고 부르는 이 연결고리의 값을 찾는 것입니다. 그 값이 우리가 찾아야 하는 정답입니다. - P-1
우리는 데이터만 넣어주고, 기계가 학습을 통해서 사실상 규칙을 찾아내고 있습니다. - P-1
규칙과 데이터의 관계를 뒤집었더니 50년 동안 풀리지 않았던 문제들이 허무할 정도로 쉽게 풀리고 있다 - P-1
기계가 찾아낸 규칙을 우리 인간이 완벽하게 이해하지 못한다 - P-1
학습이란 결과적으로 모든 신경세포들 간의 적절한 가중치를 찾는 것입니다. - P-1
학습을 통해 만들어지는 규칙을 우리가 표현할 수 있는 단어가 없다 - P-1
언어의 해상도가 인식의 해상도보다 훨씬 낮다 - P-1
눈에서부터 맨 위로 올라가는 계층적 구조 - P-1
사물을 알아보는 영역을 매핑할 때, 물체를 한 곳에서 한꺼번에 알아보는 게 아니라 약 30개 정도의 영역에서 나눠서 분석하고, 정보가 병렬처리된다 - P-1
언어 문제가 해결되니까 나머지 문제들도 덩달아 해결되기 시작했다 - P-1
그림의 픽셀과 픽셀 간에는 통계적으로 인과관계가 거의 없습니다. 그래서 각 픽셀은 독립적으로 계산할 수 있고, 병렬처리가 가능한 알고리즘입니다. - P-1
학습이 수천 배 빨라졌다는 건, 현실적으로 모델을 더 키울 수 있다는 얘기입니다. - P-1
인공지능에서는 스케일을 키우면 문제가 풀리게 됩니다. - P-1
문장을 구성하는 각 단어는 독립적으로 처리할 수 없습니다. 단어와 단어 간에 인과관계가 있기 때문입니다. 어떤 문장을 이해할 때는 그 문장의 첫 번째 단어를 듣고 바로 이해할 수 있는 게 아닙니다. 맨 마지막 단어까지 들은 다음에야 순서대로 처리하고 이해할 수 있습니다. 그래서 언어라는 것은 병렬 처리가 불가능한 문제라는 것입니다. - P-1
말이란 시간 축 데이터입니다. 즉, 시간의 흐름에 따라 진행됩니다. - P-1
시간 축 데이터에 무엇이 있을지 생각해보면 우리가 어떻게 시간 축 데이터를 이해하고 분석하려고 해왔는지 연상하기 쉽습니다. - P-1
언어는 시간 축 데이터인데, 인과관계가 선형이 아니라 뒤죽박죽 - P-1
문장에서 단어의 의미는 그 단어가 등장하는 포지션, 즉 문맥, 앞뒤에 등장하는 다른 단어들의 교집합으로 결정된다 - P-1
우리가 찾아야 하는 건, 특정 단어가 있을 때 그 앞에 어떤 단어가 등장할 수 있는지의 조건적 확률conditional probability을 계산하는 것입니다. - P-1
사실 인간 언어의 단위는 단어가 아니라 더 잘게 쪼갤 수 있습니다. 토큰token이라는 단위로 쪼갤 수 있지요. - P-1
문장을 쪼개서 숫자로 표현하고, 임베딩embedding (벡터화) 할 수 있다 - P-1
집중 스코어!! 벡터화된 토큰들 간의 유사도를 구하기 위해 스케일링 된 내적을 계산 -> 문맥화된(contextualized) 토큰 생성 - P-1
왜 숫자로 표현하는가 하면, 계산할 수 있기 때문입니다. 모든 단어를 숫자로 표현할 수 있고, 그러면 계산할 수 있게 됩니다. - P-1
챗GPT같은 경우, 모든 정보가 임베딩됩니다. - P-1
어떤 상황에서 얼마만큼의 확률로 등장하는지를 표현한 것 - P-1
뒤죽박죽 얽힌 단어들의 의미, 관계를 해석하기 위해서는 특정 단어가 등장할 때 가장 자주 동시에 등장하는 단어들에만 집중하면 된다는 것을 알았습니다. 이제 단어의 순서보다 더 중요한 것은 단어가 등장하는 주변 단어들, 그러니까 ‘문맥‘이라는 걸 깨달은 것입니다. 예전에는 단어가 등장하는 순서대로 계산했는데, 그렇게 해서는 해석할 수 없었습니다. 그보다 문맥적으로 얼마나 비슷한 단어인지에 집중해야 한다는 것입니다. 이 방법을 집중 스코어attention score라고 부릅니다. 문장이 있으면 어디에 집중해야 할지, 그걸 계산하면 되는 것입니다. - P-1
언어를 해결하려면 문장에 있는 단어들이 서로 얼마나 자주 동시에 등장하는지, 그 집중 스코어만 계산하면 그게 곧 그 문장의 의미라는 것이지요. - P-1
컨텍스트 길이context length가 길수록 더 많은 걸 이해할 수 있습니다. - P-1
학습이 끝나면 프롬프트prompt를 입력합니다. 우리가 입력한 프롬프트에 이미 집중 스코어 관계는 다 계산돼 있습니다. - P-1
이런 집중 스코어 관계를 학습한 걸 우리는 거대 언어 모델Large Language Model(LLM) 이라고 부르고 있습니다. LLM은 계산량이 상상을 초월합니다. - P-1
어디까지나 창의적인 아이디어가 나오느냐 안 나오느냐의 문제이니까요. - P-1
코딩하려면 반도체에 소프트웨어 환경이 필수입니다. - P-1
|