기계가 학습할 수 있는 이유는 수학과 전산학의 이례적인 만남 덕분이다. 물리학과 신경과학도 거들었다. - P10
이 책을 쓰는 내내 생각과 개념을 반복적으로 제시했으며 때로는 같은 문구를 되풀이하거나 같은 개념을 다르게 표현했다. 이 반복과 재서술은 의도적인 것이며 이것은 수학자나 기계 학습ML 개발자가 아닌 대부분의 사람들이 단순하면서도 (역설적이게도) 복잡한 주제를 파악할 수 있는 한 가지 방법이다. 일단 생각이 표현되면 우리의 뇌는 거기에서 패턴을 발견하며 다른 곳에서 그 생각을 맞닥뜨릴 때마다 연결을 형성함으로써 처음보다 더 깊이 이해한다. 당신의 신경세포들이 이 과정을 내 신경세포들만큼 즐기기를 바란다. - P14
이를테면 새끼 청둥오리에게는 모양이나 색깔이 비슷한 한 쌍의 움직이는 물체가 각인될 수 있다. 엄밀히 말하자면 두 물체에 구현된 관계 개념이 각인되는 것이다. 그래서 새끼 청둥오리가 부화 직후 두 개의 움직이는 빨간색 물체를 보았다면, 그 뒤로 색깔이 같은 두 개의 물체는 따라다니지만(빨간색이 아니라 파란색이어도 상관없다) 색깔이 다르면 따라다니지 않는다. 이때 새끼 청둥오리에게 각인된 것은 유사성 개념이다. 그런가 하면 비유사성을 인식하는 능력도 관찰된다. 이를테면 처음으로 본 움직이는 물체가 정육면체와 직사각형 프리즘이면 새끼 오리는 두 물체의 모양이 다르다는 것을 인식하여 훗날 모양이 다른 두 물체(이를테면 정사면체와 원뿔)는 따라다니지만 모양이 같은 두 물체는 외면한다. - P16
(프랭크) 로젠블랫의 퍼셉트론Perceptron이 장안의 화제가 된 것은 놀랄 일이 아니다. 데이터에서 가중치를 학습할 수 있었으니 말이다. 어떤 면에서 가중치는 데이터에 들어 있는 패턴에 대한 (아무리 사소할지언정) 지식을 부호화하여 기억했다. - P2526
퍼셉트론 장치의 제작은 대단한 성취였다. 하지만 훨씬 큰 성취는 만일 데이터가 선형적으로 분리 가능하면 단층 퍼셉트론이 선형 분리 초평면hyperplane을 반드시 찾아낸다는 수학증명이었다. 이 증명을 이해하려면 벡터가 무엇이며 어떻게 이것들이 기계 학습에서 데이터를 나타내는 방법의 뼈대를 이루는지 알아야 한다. 이것이 우리의 첫 번째 수학적 급유 지점이다. - P33
물론 한 데이터 점을 바로잡으면 초평면이 나머지 데이터 점의 일부 또는 전부에 대해 틀릴 수도 있다. 그러므로 퍼셉트론은 이 절차를 데이터 점 단위로 반복하다가 결국 모든 데이터 점에 적합한 가중치와 편향에 대해 수용 가능한 값 집합에 안착한다. 이런 식으로 퍼셉트론은 두 데이터 점 집합을 가르는 선형 구분선을 찾는다. - P60
이 분야 사람들은 1974년부터 1980년까지를 첫 번째 AI 겨울이라고 부른다. 케임브리지 대학교 루커스 응용수학 석좌교수인 제임스 라이트힐 경은 이 분야를 조사하여 1972년 AI의 현황에 대한 보고서를 발표했다. 그의 보고서에는 심지어 "과거의 실망스러운 것들"이라는 대목도 있었다. 해당 부분은 이렇게 시작된다. "AI 연구 및 관련 분야 종사자들은 대부분 지난 25년간의 성취에 대해 뚜렷한 실망감을 토로한다. 1972년에 실현된 것은 그들이 1950년경, 심지어 1960년경 이 분야에 발을 들일 때에 품었던 부푼 희망과는 딴판이었다. 이 분야의 그 어떤 발견도 당시 장담한 거대한 변화를 지금껏 전혀 일으키지 못했다." - P63
때는 1959년 가을이었다. 갓 30대가 된 젊은 학자 버나드 위드로가 스탠퍼드 대학교의 연구실에 있을 때, 거창한 추천의 말과 함께 마션 ‘테드‘ 호프라는 대학원생이 그를 찾아왔다. 전날 스탠퍼드 대학교의 선임 교수 한 사람이 위드로에게 호프를 이렇게 소개했다. "테드 호프라는 학생이 있네. 내 연구에 흥미를 붙여주지 못하겠어. 자네가 하는 것에는 관심을 보일지도 모르겠군. 그와 얘기해보겠나?" 위드로가 대답했다. "기꺼이 그러죠." 위드로가 내게 말했다. "그렇게 이튿날 테드 호프가 제 연구실 문을 두드렸습니다." - P72
이제 x, y, z에 대해 임의의 값 집합이 주어졌을 때 우리는 그 점에서 함수의 기울기를 구한 다음 반대 방향으로 작은 걸음을 내디뎌 x, y, z의 값을 갱신할 수 있다. 함수가 전역 최솟값이나 지역 최솟값들을 가지면 이절차를 반복하여 그곳에 도달할 수 있다. 또한 우리의 해석은 함수와 벡터라는 두 중요한 개념을 연결했다. 이것을 명심하라. 기계가 왜 배우는지 이해해나가면서 우리는 벡터, 행렬, 선형 대수, 미적분, 확률 통계, 최적화 이론(마지막 두 개는 아직 들여다보지 않았다)과 같이 서로 동떨어져 보이는 분야들이 모두 어우러지는 것을 보게 될 것이다. - P85
그때 그(버나드 위드로)는 MIT에 있으면서 필터 설계의 대가 노버트 위너에게 깊은 영향을 받았다. 당시 위너는 MIT에서 가장 널리 알려진 교수였다. 수십 년 뒤 위드로는 책에서 위너의 성격을 회상하며 유난히 감정에 북받쳐 묘사했다. 위너가 MIT 건물 복도를 걸을 때 그의 머리는 말 그대로, 또한 비유적으로 "구름 속에in the claa A ouds" 있었다고 한다(‘구름 속에‘는 공상에 빠져 있음을 뜻하는 관용 표현이다/역주). "우리는 위너를 매일 그곳에서 보았는데, 그때마다 시가를 물고 있었다. 그는 시가를 뻐끔거리며 복도를 내려왔다. 시가는 세타 각을 이루고 있었다. 즉, 지면으로부터 45도 기울어져 있었다. 그는 결코 걷는 방향을 바라보지 않았다. ……하지만 연기를 뻐끔뻐끔 내뿜어 머리가 연기 구름에 둘러싸여 있었다. 그는 다른 것에 정신이 팔려 있었다. 물론 방정식을 도출하고 있었다. 위너는 복도 끝 계단 앞에 다 와서도 아래를 내려다보지 않고 위를 올려다보았다. "위너가 계단 아래로 굴러떨어져 목숨을 잃을 것처럼 보여도 방해하면 안 된다. 그의 생각의 흐름이 끊기면 과학이 10년은 퇴보할 수도 있기 때문이다! 늘 이 문제가 있었다." - P88
위드로와 호프는 자신들의 방법이 지독히 근사적임을 알고 있었다. 위드로가 내게 말했다. "제가 하는 일은 오차의 값 하나를 취해 제곱하고 침을 꿀꺽 삼키는 것입니다. 거짓말을 할 작정이니까요. 그러고는 그것이 제곱 평균 오차라고 말합니다. 잡음이 자글거리는 제곱 평균 오차인 셈이죠. 그러고 나서 도함수를 취하면 미분하지 않고 해석적으로 값을 구할 수 있습니다. 아무것도 제곱할 필요가 없습니다. 아무것도 평균할 필요가 없습•니다. 당신은 잡음이 지독히 많은 기울기를 얻었습니다. 이런 작은 단계를 한번, 또 한번, 다시 한번 거칩니다." - P98
위드로의 연구실 맞은편에는 아날로그 컴퓨터가 있었다. 록히드 사가 스탠퍼드 대학교에 준 선물이었다. 문은 열려 있었으며 누구나 컴퓨터를 이용할 수 있었다. 이 컴퓨터로 프로그래밍하는 것은 구식 전화 교환대를 조작하는 것과 비슷하게 전선을 이 배선반에서 뽑아 저 배선반에 꽂는 식이었다. 호프는 반시간 만에 아날로그 컴퓨터에서 알고리즘을 작동시켰다. 위드로가 내게 말했다. "호프가 해냈습니다. 작동법을 어떻게 알았는지는 모르겠습니다. 그것을 프로그래밍하는 법을 알고 있더라고요." 알고리즘이 작동한다는 것을 확인하고 난 뒤 두 사람의 다음 단계는 단일 적응 신경세포, 즉 실제 하드웨어 신경세포였다. 하지만 때는 이미 늦은 오후였다. 스탠퍼드 대학교 비품실은 주말에는 문을 닫았다. 위드로가 내게 말했다. "기다릴 생각은 없었습니다." 이튿날 아침 두 사람은 팰로앨토 시내의 전파사를 찾아가 필요한 부품을 몽땅 구입했다. 그러고는 호프의 아파트로 가서 토요일 한나절과 일요일 반나절 내내 일했다. 일요일 오후가 되자 프로그램이 제대로 작동했다. 위드로가 그때를 떠올렸다. "월요일 아침에 제 책상 위에 올려놓았습니다. 사람들을 초대하여 학습하는 기계를 보여줄 수 있었죠. 우리는 애들라인ADALINE이라는 이름을 붙여주었습니다. ‘적응 선형 신경세포adaptive linear neuron‘의 약자입니다. 그것은......적응 필터가 아니라 훌륭한 신경세포가 되는 법을 학습한 적응 신경세포였습니다." - P99
제2장에서 본 퍼셉트론 수렴 증명은 선형 분리 초평면이 만일 존재한다면 퍼셉트론이 그 초평면을 찾아내는 이유를 분명히 보여주었지만, 조잡한 LMS 알고리즘이 효과가 있는 이유는 그만큼 분명하지 않았다. 몇 해 뒤에 위드로는 뉴저지 주 뉴어크에서 비행기를 기다리고 있었다. 그의 항공권은 유나이티드 항공사가 발급한 것이었다. "당시에는 항공권을 봉투에 넣어서 줬습니다. 그리고 봉투에는 여백이 있었죠. 그래서 자리에 앉아 몇 가지 대수식을 풀고는 이렇게 말했습니다. 어라, 이건 불편 추정값unbiased estimate이잖아." 위드로는 단계가 극단적으로 작아지면 LMS 알고리즘이 해를 내놓는다는 것을 밝힐 수 있었다. 그것은 신경세포나 적응 필터의 가중치에 대한 최적값이었다. 위드로가 내게 말했다. "단계를 작게 줄여 많이 만들면 평균 효과를 얻어 그릇 바닥에 도달합니다." - P100101
그러나 거의 모든 사례에서는 기저 분포를 알기가 불가능하다. 그러므로 확률론적 ML 알고리즘의 과제는 데이터에서 분포를 추정하는 것이라고 말할 수 있다. 어떤 알고리즘은 다른 알고리즘보다 이 일을 잘하며 모두가 실수를 저지른다. 그러므로 AI가 정확한 예측을 한다는 주장을 듣거든 100퍼센트 정확도란 불가능에 가깝다는 사실을 명심하라. (퍼셉트론의 경우에서처럼) 암묵적으로 확률론적이든 (조금 뒤에 살펴볼 예제에서처럼) 명시적으로 확률론적이든 모든 알고리즘은 틀릴 수 있다. 그렇다고 해서 이것이 기계 학습에 타격이 되지는 않는다. 인간인 우리도 (스스로는 합리적이고 오류 없는 결정을 내린다고 생각하지만) 확률론적 결정을 내린다. 이 확률론적 과정이 우리가 인식하지 못하는 (말하자면) 막후에서 벌어지고 있을 뿐이다. - P124
홀수는 옳든 그르든 답을 보장한다. - P168
여기에는 놀라운 의미가 담겨 있다. 데이터 집합에 대한 단순한 가정이 주어지면, 저차원에서의 결정 경계가 아무리 복잡하더라도 문제를 무한 차원에서 선형적으로 분리 가능한 문제로 바꿀 수 있는 것이다. - P243
RBF(radial basis function, 방사형 기저 함수) 커널은 일부 무한 차원 공간에서 선형적으로 분리 가능한 초평면을 알고리즘이 반드시 찾도록 해줄 수 있기 때문에 저차원 공간에 대응되면 아무리 복잡한 공간에서도 어떤 결정경계(또는 함수)든 찾을 수 있다. 그래서 ‘보편 함수 어림자universal function approximator‘라고 불린다. 이 구절을 기억해두라. 뒤에서 장 하나를 통째로 할애하여 특정 유형의 인공 신경망이 어떻게 해서 보편 함수 어림자이기도 한지를 논할 것이기 때문이다. 신경세포가 충분하다면 어떤 문제든 해결할 수 있다. (블라디미르) 바프니크의 1964년 최적 한계 분류자와 커널 수법의 조합은 엄청난 위력을 발휘했다. 이제 넘보지 못할 데이터 집합은 하나도 없었다. 원래의 저차원 공간에서 데이터 부류들이 얼마나 뒤섞였는지는 문제가 되지 않았다. 데이터를 극단적 고차원에 투영하여 최적 한계 분류자를 이용하면 최상의 선형 분리 초평면을 찾을 수 있지만, 커널 함수를 이용하기 때문에 고차원 공간에서 계산하지 않아도 된다. - P244
나는 존 홉필드를 인터뷰하면서 그의 이름을 딴 연결망을 언급하는 것이 어색했다. 내가 말했다. "당신과 이야기하면서 그것을 홉필드 망이라고 부르는 게 멋쩍게 느껴져요. 당신은 늘상 이런 경험을 했겠죠." 홉필드가 미소 지으며 말했다. "마음을 비웠습니다." - P277278
논문은 발표되었다. 홉필드는 에세이 "이제 무엇을 할까?"에서 그 과정을 떠올리며 헤밍웨이를 인용한다."
어니스트 헤밍웨이는 논픽션 쓰기와 관련하여 이렇게 말했다. "산문의 저자가 자신이 무엇에 대해 쓰는지 충분히 알면 자신이 아는 것을 생략할 수 있으며, 독자는 (저자가 충분히 진실되게 쓴다면) 생략된 것에 대해 마치 저자가 쓴 것처럼 생생한 느낌을 받을 것이다." 나는 「PNAS」(「미국 국립과학원 회보」) 분량 제한 때문에 무엇을 쓰고 무엇을 생략할지를 매우 깐깐하게 골라야 했다. 헤밍웨이가 물리학자였다면 내 문체를 알아봤을 것이다. 돌이켜보면 거의 명백한 것을 생략한 덕분에 논문의 영향력이 커진 듯하다. 언급되지 않은 것들은 다른 사람들에게 이 주제에 첨언하라는 초대장이 되었으며 그리하여 연구자 집단이 이런 연결망 모형에 대한 논문을 발표하도록 독려했다. 성공적인 과학은 언제나 공동 작업이다. - P278279
충분한 은닉 신경세포가 주어졌을 때 신경망이 어떤 함수든 어림할 수 있다는 그의 증명이 단 하나의 은닉층에 초점을 맞춘 탓에 일부 연구자들은 은닉층 개수를 늘려 깊이 들어가기보다는 하나의 은닉층만 가지고 신경망을 구축하는 데 열중한 듯하다. (조지) 시벤코가 말했다. "저는 층을 하나만 쓰라고 말하지 않았습니다. 사람들 스스로 하나만 필요하다고 결론 내린 것입니다." - P308
(제프리) 힌턴은 결국 박사 과정을 끝냈다. 그의 연구는 신경망을 이용해서 제약하 최적화 문제를 푸는 것이었다. 그는 자신의 신경망에 대해 이렇게 말했다. "하지만 학습을 하지는 않았습니다." 하지만 힌턴은 언젠가 다층 신경망을 학습시킬 수 있을 것이라고 확신했다. 당시는 1970년대 중엽이었다. (마빈) 민스키와 (시모어) 패퍼트가 단층 퍼셉트론이 XOR 문제를 풀 수 없음을 증명한 것이 그즈음이었다. 힌턴은 두 사람의 증명이 보편적이라는 점에서 중요하다는 것을 인정했다. XOR 문제가 단층 퍼셉트론으로 풀 수 없는 문제 유형의 특수 사례라는 것도 인정했다. 하지만 주눅 들지는 않았다. 그가 내게 말했다. "단순한 신경망이 그렇게 못한다는 것을 증명했다는 점에서 기본적으로 속임수였습니다. 두 사람은 더 복잡한 신경망이 그렇게 할 수 없다는 어떤 증명도 내놓지 못했습니다. 일종의 유추일 뿐이었습니다. ‘단순한 신경망이 못 하니까 잊어버려‘라는 식이었죠. 그런데도 사람들은 수긍하더군요." - P312
영국에서는 면접조차 잡기 힘들었다. 서식스 대학교에서만 발달심리학과 자리가 나서 면접 기회를 얻었는데, 결국 탈락하고 말았다. 서식스 대학교의 한 학자는 힌턴에게 논문을 축소판으로 복사해서 미국에 있는 모든 관련 인사에게 보내보라고 제안했다. 힌턴이 말했다. "AI는 미국에 있었으니까요." (데이비드) 러멜하트는 힌턴의 논문을 읽고서 캘리포니아 대학교 샌디에이고 캠퍼스의 박사후 연구원 자리를 제안했다. 영국의 획일적인 학문 풍토에 시달린 힌턴에게 미국은 신의 계시와 같았다. 영국에서는 ‘올바른‘ 방법이 정해져 있었으며 나머지 모든 것은 이단으로 치부되었다. 신경망은 그런 이단에 속했다. "미국은 그렇게 옹졸하지 않습니다. 무엇보다 해안이 두 곳입니다. 한쪽에서는 이단이 다른 쪽에서는 그렇지 않을 수 있죠." - P316
이것은 역전파 알고리즘의 경이로운 능력이다. 입력에서 손실에 이르는 연산의 연쇄를 매 단계마다 미분할 수 있으면 손실 함수의 기울기를 계산할 수 있다. 기울기가 주어지면 각각의 가중치와 편향을 조금씩 갱신하여 손실이 수용 가능할 만큼 최소화될 때까지 경사하강법을 실시할 수 있다. 역전파 알고리즘의 유연성과 위력은 아무리 강조해도 지나치지 않다. 이론상 신경망의 층 개수가 몇 개든 상관없으며, 층 하나당 신경세포 개수도 몇 개든 상관없다. 신경망의 연결이 듬성하든 촘촘하든 상관없다. 알맞은 손실 함수를 설계하기만 하면 된다. 이 모든 선택은 당신의 신경망이 수행해야 하는 작업을 결정한다. 훈련은 결국 다음으로 귀결된다. 신경망에 일정한 입력 집합을 넣고 예측 출력을 알아내고(이것은 사람이 데이터에 주석을 달아서 출력이 무엇이어야 하는지 알기 때문일 수도 있고, 자기 지도self-supervised 학습이라는 학습 유형에서 예측 출력이 입력 자체의 알려진 변이이기 때문일 수도 있다) 손실을 계산하고 손실 기울기를 계산하고 가중치/편향을 갱신하고 이 작업을 반복하는 것이다. - P342343
(얀) 르쾽은 앞 장들에서 이미 만나본 ML의 성서인 (리처드) 두다와 (피터) 하트의 『패턴 인식Pattern Classification』을 발견하여 일부를 암기했다. 르쾽은 이 모든 독서에서 얻은 핵심 교훈을 이렇게 설명했다. "학습 알고리즘은 목적 함수를 최소화해야 합니다. 그러면 엄청난 결과를 이끌어낼 수 있습니다." 목적 함수는 손실 함수를 사소하지만 유의미하게 변화시킨 것이다. 이미 살펴보았듯이, 손실 함수는 ML 모형의 매개변수를 취해 손실을 (이를테면) 전체 훈련 데이터 집합에 대한 제곱 평균 오차(MSE)로서 계산하는 함수이다. 우리는 손실 함수를 어떻게 최소화하거나 최적화할 수 있는지 보았다. 그런데 손실 함수만 적용하는 것에는 내재적 문제가 따른다. 최적화를 너무 잘하면 ML 모형이 데이터에 대해 과적합할 수 있는 것이다. 즉, 말 그대로 모든 것을 기억할 수 있다. 이런 경우 전에 보지 못한 시험 데이터에 대한 예측 실력이 형편없어질 수 있다. 이를 방지하려면 정칙화 항(regularizer. 보통 ‘정규화‘라고 번역하지만 이 책 앞부분에도 나오는 또다른 기계학습 용어인 ‘normalization‘과 혼동 우려가 있어서 이 책에서는 ‘정칙화‘로 번역한다/역주)이라고 하는 추가 항을 손실 함수에 덧붙이는 방법이 있다. 이 항은 ML 모형이 과적합을 피하게 할 수 있도록 설계된다. 손실 함수와 정칙화항을 합치면 목적 함수가 된다. 단지 순수한 손실 함수만이 아니라 목적 함수를 최소화하여 구축한 모형은 처음 보는 데이터를 더 탁월하게 일반화할 수 있다. - P366367
우리는 ML 모형이 그릇 바닥에 있기를 바란다. 이 지점은 미적합과 과적합 사이, 모형의 단순성과 복잡성 사이에 있는 최적 균형을 나타낸다. 이것이 골디락스 구역이다. 시험 오류 위험을 최소화하는 모형을 선택하면, 처음 보는 데이터(모형이 현실에서 맞닥뜨릴 데이터로, 말하자면 훈련 데이터나 시험 데이터에 들어 있지 않은 것)를 일반화하는 능력이 최대화된다. 그러므로 시험 오류를 최소화하는 것은 일반화 오류를 최소화한다는 뜻이자 일반화 능력을 최대화한다는 뜻이다. 전통적인 기계 학습의 거의 모든 경험적 설명에 따르면, 이 이야기는 옳아 보였다. 그런데 심층 신경망이 뛰어들어 이 통념을 뒤집었다. 심층 신경망은 매개변수 개수가 훈련 데이터 인스턴스에 비해서 너무 많다. 그래서 과매개변수화되었다고 말한다. 따라서 과적합해야 마땅하며 처음 보는 시험 데이터를 제대로 일반화하지 못해야 마땅하다. 그런데도 제대로 일반화한다. 표준 ML 이론은 심층 신경망이 왜 이토록 훌륭한 결과를 내놓는지 더는 제대로 설명하지 못한다. - P401
ML 엔지니어는 여러 초매개변수를 선택해야 하는 것 이외에 더 포괄적으로는 지도 학습을 동원할 것인지, 비지도 학습을 동원할 것인지도 선택해야 한다. 우리는 지도 학습에 주로 초점을 맞췄는데, 이를 위해서는 훈련 데이터를 라벨링해야 한다. 이 말은 각 입력에 대해 그에 대응하는 예측 출력이 있다는 뜻이다. 이렇게 하면 훈련 데이터의 인스턴스마다 손실을 계산할 수 있다. 비지도 학습도 간단하게 접했는데, 이를테면 훈련 데이터 집합에 군집이 몇 개 있는지 알고리즘에 알려주면 이 알고리즘은 군집을 찾아 데이터의 각 인스턴스를 해당 군집에 할당할 수 있다. 하지만 지난 5년에 걸쳐 가장 중요한 발전 중 하나(그 덕에 챗GPT 같은 AI에 대한 관심이 폭발적으로 커졌다)는 자기지도 학습이라고 불리는데, 비라벨 데이터를 취해 인간의 개입 없이 암묵적 라벨을 만들어 스스로 지도 학습을 하는 기발한 방법이다. - P409
사실 이 책의 상당 부분은 전통적인 기계 학습의 토대에는 잘 이해된 수학적 원리가 있다는 사실을 칭송했지만, 심층 신경망, 특히 오늘날의 거대 신경망은 이 통념을 뒤집는다. 느닷없이 신경망의 경험적 관찰이 앞장을 서고 있다. 마치 AI를 하는 새로운 방식이 우리에게 제시된 듯하다. - P416
트랜스포머transformer는 내부 고차원 공간에 있는 각각의 수를 표상하는 법을 학습했으며 모듈로—97 덧셈으로 수를 더하는 법도 학습했다. 신경망의 훈련 손실이 0이 되는 점에서 훈련을 중단하면 신경망은 훈련 데이터를 내삽했을 가능성이 매우 크다. 이 말은 데이터를 무작정 암기했다는 뜻이다. 오폰시 연구자들이 훈련을 중단한 것도 대개 이 시점에서였다. 누구도 더 훈련할 생각을 하지 않았다. 하지만 그러던 어느 날 휴가 소동 덕분에 신경망이 이 시점을 지나 훈련을 계속했으며 전혀 새로운 무엇인가를 학습했다. (얼리티아) 파워가 내게 말했다. "신경망이 충분히 오랜 시간 동안, 그러니까 훈련 집합을 암기하는 데 걸리는 시간의 몇 배에 이르는 훨씬 오랜 시간 동안 훈련을 받으면 갑자기 더 심층적인 기저 패턴을 찾아내고, 일반화 능력이 생기며, 데이터 집합의 다른 문제에 대해서도 더 정확한 예측을 내놓을 수 있어요. 기이한 현상이죠. 우리는 예측하지 못했습니다." - P419420
마음 이론 과제(외부 행동 단서만으로 타인의 믿음이나 마음 상태를 추론하는 것)가 사소한 것처럼 보일지도 모르지만, LLM(large language model, 거대 언어 모형)에는 중대한 응용 분야가 있다. 이를테면 프로그래밍 코드가 들어 있는 웹페이지에 대해 미세 조정된 LLM은 프로그래머에게 뛰어난 조수가 될 수 있다. 문제를 자연어로 기술하면 LLM은 그 문제를 해결하는 코드를 내놓는다. LLM은 천하무적이 아니며 실수를 저지르지만, 우리가 인정해야 할 중요한 사실은 LLM이 코딩을 훈련받는 것이 아니라 토큰 연쇄가 주어졌을 때 다음 토큰을 생성하는 법만 훈련받았다는 것이다. 그런데도 코드를 생성할 수 있는 것이다. 이로 인한 프로그래머의 생산성 향상은 부인할 수 없다. - P430
|