기계는 왜 학습하는가 - AI를 움직이는 우아한 수학
아닐 아난타스와미 지음, 노승영 옮김 / 까치 / 2025년 2월
평점 :
장바구니담기


인공지능은 ‘기계 학습’인가? 기계는 학습하는가?

아마 2012년에 이미지넷 ILSVRC라는 이미지 분류 대회에서, 제프리 힌턴 교수와 그의 제자들의 딥 러닝(Deep learning, 심층 학습) 알고리즘이 뛰어난 성과를 거둔 시점부터였을 것이다. 이제 근 10년이 좀 넘게 지났는데, 이 세계는 그때로부터 조금 다른 모습이 되었다. 우리는 지금 인공지능의 시대에 살게 되었다. ChatGPT 류의 거대 언어 모델(LLM: Large Language Model), 그의 이론적 기반인 Transformer, 그림을 그려 주는 Dall-E, Midjourney 등의 생성형 AI, 알파고 등 인간을 이기는 바둑 천재 AI, 인간의 전체 누적 성과를 뛰어넘어 단백질 구조 설계를 순식간에 해치운 허사비스의 AI 등. 이 폭풍같은 기술의 성장은 분명 2012년부터 시작되었다.


하지만 인공지능 분야는 그전부터 연구되고 있었다. 나는 2000~2010년 사이에 인공지능을 배웠고, 그 교재는 때로는 1980년대 쓰이기도 했다. 그 교재란 것들은 대부분 ‘기계 학습(machine learning)’에 관한 것이었다. 1980년대 이전부터, 인공지능이란 곧 기계 학습과 동의어로 쓰였다. 현대 인공지능의 폭발점이었던 2012년 이후 몇 년 동안도 딥 러닝은 쉽게 넘볼 수 없었던 학술적 방법론이었기 때문에, 산업 분야에서는 실용적으로 기계 학습을 자주 써 왔다. 기계 학습은 ‘빅 데이터’나 ‘디지털 트랜스포메이션’이라는 기술 트렌드 용어 아래에서 계속해서 새롭게 조명되었다. 그러나 기계 학습은 트렌디하지 않다. 그 용어는 스테디셀러이다. 그것은 지극히 개념적이면서도 잘 정의된 용어이고, 학술적으로 꾸준히 연구되어 왔으면서 동시에 실용적인 기술을 지칭하는 용어다.


왜 기계 학습은 인공지능과 같은 말일까? 그것은 심오한 의미가 있다. 사실상 '지능'이란 '학습'임을 강조하겠다는 말과 다를 바 없다. 이건 다른 분야, 예를 들면 심리학에서 반발심을 불러일으킬 만하다. 심리학에서는 학습 말고도 지각, 기억, 계획, 행동 등도 지능의 구성요소라고 주장한다. 하지만 의외로 심리학에서 명백한 논조로 반대하는 건 아닌데, 왜냐하면 지각, 기억, 계획, 행동 등의 심리 모듈 전부 신경망의 학습에 바탕을 두고 있기 때문이다. 몇 가지 실패한 인공지능학 프로그램에서 학습이 ‘아닌’ 지능을 구현하는 일에 관심을 가지기도 했다(예: 기호주의 AI, 전문가 시스템 AI). 하지만 그것들은 다 실패했기 때문에, 그리고 2012년 이후로 학습이 지능임을 명백히 한 방법론이 인공지능을 구현하는 데 사실상 성공했기 때문에, 이제 ‘학습이 곧 지능이다’라는 말에 반대하는 사람은 아무도 없게 되었다.


기계 학습이란 “기계가 명시적으로 프로그래밍되지 않고도 경험으로부터 성능을 향상시키는 것”을 뜻한다. 즉, 기계 학습 시스템은 경험을 쌓는 시간이 필요하고, 완벽히 정답을 만들어 내지 못한다. 이런 불완전함은 완벽히 코딩되어 정확한 정답만을 산출하는 기계의 세계에서 굉장히 이질적인 특성을 뽐낸다. 어쩌면 그것은 생물학적이며 심리학적이다. 그리하여 인공지능의 초창기에, 사람들은 기계가 학습을 하는 것이 지능의 특성을 가진다고 생각했을 지도 모른다. 이 특성은 철학자 대니얼 데닛의 ‘생성과 시험의 탑’을 떠올리게 한다. 어떤 생물은 어떤 환경이 닥치면 그 환경에 맞는 유전자를 가져서 살아남거나, 혹은 그 환경에 맞지 못한 유전자를 가져서 멸종한다. (다윈 생물) 하지만 스키너 생물은 닥쳐온 환경에 맞춰서 생존할 수 있는 방식을 학습한다. 스키너 생물은 보상을 주어 비둘기 등의 동물에게 행동을 학습시킨 심리학자 B. F. 스키너의 이름을 땄다. 그리고 기계 학습이 스키너 생물과 같다는 말은 비유 같은 게 아니라 정말 말 그대로이다. 기계 학습은 기계에 ‘보상’을 주거나, ‘지도’하는 식으로 이루어진다. 기계는 미리 작성된 코드(유전자)가 아닌, 미리 학습된 지식을 바탕으로 다양한 환경에 대해 다르게 반응하는 스키너적인 생물이 된다.


인공지능의 봄

그리하여 기계 학습은 그 역사의 초창기에도 생물을 모방하였어야만 했다. 1943년 워런 매컬러와 월터 피츠는 동물의 뇌에서 관찰된 신경세포를 이용해 최초의 인공 신경망을 만들어 냈다. 하지만 매컬러-피츠 인공 신경세포는 학습을 하는 기능이 없었기에, 진정한 기계 학습의 탄생은 1958년 프랭크 로젠블랫의 ‘퍼셉트론’까지 기다려야 했다. 로젠블랫은 도널드 헤브라는 신경심리학자가 밝힌의 신경세포 학습 모형을 매컬러-피츠 인공 신경망에 적용시켰다.(그리하여 우리는 인공신경망의 학습 방식을 특별히 ‘헤비안 러닝’이라고 부른다.) 그것은 말하자면 ‘신경세포의 연결 강도를 조정하는 방식’으로 작동한다. 출력값이 정답과 멀면 멀 수록 로젠블랫의 알고리즘은 신경세포의 연결 강도를 '더 강하게' 조정한다. 생물학에서의 헤비안 러닝은 신경세포에 대한 내용이었지만, 로젠블랫의 퍼셉트론은 행렬과 벡터 연산의 추상화 과정을 통해 구현되었다.


그러니까 인공 신경망에 바탕을 둔 인공지능은 1943년 미컬러-피츠 모형, ‘학습’에 기반한 모형부터 치자면 1958년 로젠블랫의 퍼셉트론 모형이 최초라는 말이다. 그러면 2012년, 딥 러닝의 등장을 완성으로 친다면 인류가 인공지능을 구현하기까지 54~69년이라는 세월을 쏟아부었다는 말이다. 내 생각에 이건 정말 오래 걸린 축에 속한다. 왜냐하면 인류는 어떤 분야에 대해 궁금증이 생기면 거의 대부분 30년 안에 무조건 승부를 보는 경향이 있기 때문이다. (이게 무슨 소린지 이해가 안 되면 다음 링크를 참조하면 된다. 나는 양자역학이나 상대성이론의 경우 30년 안쪽이 걸렸고, 초끈 이론의 경우 40년이 넘었으므로 초끈 이론은 가망 없는 사이비 이론이라는, 조금은 허술하면서도 과감한 논증을 했었다.)


인류는 어째서 30년이라는 커트라인이 훨씬 넘도록, 70년이나 되는 세월 동안이나 인공지능을 붙들고 있었으면서도 그 구현가능성을 포기하지 못하였을까? 그건, 인공지능이야말로 인류가 과학으로써 이룩해야 할 궁극적인 목적이었기 때문이다. 그 목표는 너무나 숭고한 나머지, 엄밀한 학문적 과학 뿐만 아니라 SF에까지 퍼져 나갔으며, 초창기 SF가 왜 ‘과학’ 소설로 불리게 되었는지를 규정하는 데 한몫했다. (현재 SF는 과학과의 연관성이 흐려졌으나, 그래도 역사적인 이유로 그렇게 부르고 있다) 인류는 너무도 만들고 싶었던 것이다. ‘인간처럼 생각하는 그 무언가’를. 그 집착은 컴퓨터를 처음 생각해 낸 앨런 튜링조차도 떠올렸던 것이니, 그는 최초의 컴퓨터에 대한 이론적 배경을 논문(On Computable Numbers, with an Application to the Entscheidungsproblem, 1936)으로 발표하고 나서, 그 컴퓨터가 ‘인간처럼 생각할’ 가능성을 탐구한(Computing Machinery and Intelligence, 1950), 즉 튜링 테스트에 대한 논문을 발표하기도 했다.


인공지능의 겨울

매컬러-피츠 모형 이후 거의 30년만에 인공지능 분야에 위기가 닥쳤다는 역사적 사실은 나의 30년 가설을 뒷받침해 주는 것 같다. 아닐 아난타스와미의 『기계는 왜 학습하는가』에서는 대략 1974년부터 1980년 동안을 ‘AI의 첫 번째 겨울’이라고 칭한다. 책에서는 인공신경망에 대한 연구 성과가 보잘 것 없었다는 제임스 라이트힐의 1972년 보고서와, 당시엔 인공지능에 대해 권위있는 연구자였던 마빈 민스키와 시모어 패퍼트의 인공신경망에 대한 과도한 폄훼 때문이라고 보고 있다. 하지만 나는 이면에 저 ‘30년 가설’이 존재할 거라고 본다. 이건 대부분의 기술 트렌드에서도 일어나는 일이다. 가트너에서는 매년 ‘hype cycle’이라고 해서 과도하게 트렌드화되는 기술의 기대가 꺾이는 지점에 대한 보고서를 낸다. (물론 가트너의 hype cycle은 30년보다 짧은, 2~5년의 주기를 가지고 있긴 하다.)


하지만 AI의 겨울 시대에도 인공지능‘이 아닌’ 기계 학습의 발전은 있었다. 이 시기의 기계 학습은 인공지능의 관점이 아닌, 통계학의 관점으로 연구되었을 뿐이다. 그리고 AI의 겨울이 끝나가는 1980년대, 연구자들은 통계학적 기계 학습이 인공지능이 될 지도 모르겠다는 생각을 떠올려 보았다. 즉, ‘기계 학습이 곧 인공지능이다’라는 관점은 1980년대에 새롭게 얻게 된 관점이었다. 이 생각은 ‘학습이 곧 지능이다’라는 과거의 관점과는 같으면서도 조금 다르다. 1980년대 기계학습으로서의 인공지능에는 인공신경망 이외에도, 나이브 베이즈, PCA, 최근접이웃, 결정나무 등등 별별 이름의 재미있고 독특한 기계 학습 알고리즘이 개발되었고, 그리하여 기계 학습이란 ‘기계가 학습한다’는 개념을 좀 더 넓게 바라보기 시작한 것이다. 이 시대에 인공지능학자들은 굳이 동물의 뇌를 모방한 인공신경망이 아니더라도 학습이 가능하다는 기대감을 가졌던 모양이다. 즉, 인공신경망이 아니더라도 인공지능이 가능할 수도 있었다. 심지어 ‘기계 학습이 아닌 인공지능’조차 시도되었는데, 그건 ‘전문가 시스템’이라는 이름으로 불렸다.


첫 번째 AI의 겨울 이후의 시대, 수많은 기계 학습이 다양화되고 범람한 이 시대에 인공신경망은 몇 가지 성과를 내기도 했다. 예를 들어 제프린 힌턴의 딥 러닝 알고리즘에서 핵심 알고리즘인 역전파(Back Propagation) 알고리즘은 힌턴의 1986년 논문에서 처음 개발되었다. 얀 르쾽이라는 또다른 딥 러닝의 중요 기여자가 만든 합성곱 신경망(CNN: Convolution Neural Network)도 1987년에 나왔다. 그러나 수많은 기계학습 알고리즘의 물결 속에서 인공신경망의 이런 소소한 성과는 크게 눈에 띄지 않았다.


책에는 나오지 않으나, 두 번째 AI 겨울이 있었다. 1987년부터 시작한 그 두 번째 겨울은 기대받던 전문가 시스템 AI가 몰락하면서 이루어졌다고 한다. (그리하여, 이제 인공지능은 확고히 ‘기계 학습으로만 달성할 수밖에 없는 것’이 되었다.) 어쨌든 인공지능의 몰락 이후에 기계 학습은 다시 한 번 통계학 관점으로 취급당해 그만의 세계를 꾸준히 지켰다. 1993년에는 기계 학습에 SVM 알고리즘의 개발로 인해 다시 한 번 붐이 일었고, 그 때부터 기계 학습은 인터넷이나 검색엔진 등의 기술과 붙어서 급속도로 발전하기 시작했다. 그랬다. 사람들은 이제 인공지능에 대한 꿈을 잊었던 것 같았다. 인터넷과 검색엔진, 소셜네트워크 서비스가 이렇게 재미있는데, 50년대부터 시도해도 제대로 되지도 않고 돈만 잡아먹는 인공지능이라는 괴물, 그 공상과학적 주제를 굳이 열심히 해야 할 필요가 있을까?


인공지능의 시대, 제프리 힌턴의 시대

제프리 힌턴은 그렇게 생각하지 않았다. 그는 2006년 논문에서 ‘Deep Belief Networks’를 소개하며 다음과 같이 선언했다. “우리는 심층 신경망을 효율적으로 학습할 수 있는 방법을 찾았다.” 그것은 딥 러닝의 조용한 혁명이었다. 하지만 그 논문은 중요하지 않다. 실제로 힌턴의 딥 러닝은 1986년, 은닉층의 학습을 가능하게 하는 알고리즘인 역전파 알고리즘으로 이론적 기반이 완성된 상태였다. 1986년에서 2012년까지 26년 동안, 인공지능에 한파가 매섭게 몰아쳤던 이유는 대규모 데이터의 누적과 GPU가 없었기 때문이었다. 2010년대에 와서 연구자들은 대규모 데이터를 다루는 방식을 고민했고(여기서 빅 데이터라는 트렌드가 유행에 그치지 않고 인공지능의 발전에 도움을 주었다), 게임의 대용량 그래픽 처리에만 쓰이던 그래픽 카드가 새로이 대규모 데이터의 행렬 계산을 사용하는 데 쓸 수 있다는 것을 발견했다.


우리는 이제 제프리 힌턴이 만든 세계에 살고 있다. 그는 2006년의 그 논문을 잠깐 연구하고 발표한 게 아니다. 그는 실제로 AI 겨울을 여러 번 겪고도 살아남았고, 인공신경망의 홀대에도 꿋꿋이 버텼으며, 연구자들이 다른 머신 러닝 주제를 기웃거리는 걸 보면서도 오로지 한 주제만 파고들었다. 딥 러닝은 실제로 1943년 매컬러-피츠 모형, 그리고 1958년 로젠블렛 퍼셉트론의 직계 후손이다. 딥 러닝은 본질적으로 그 시절의 구조와 동일하다. 인공신경망은 딥 러닝으로 최후의 승자가 되었다. 인공신경망이 그만큼 오래 살아남아 우승했던 것처럼, 제프리 힌턴도 꾸준히 연구해 세계를 바꾸었다. 제프리 힌턴이 포기하지 않았던 건 인류의 꿈을 공유하고 있었기 때문이다. 인류는 30년보다 더 오랫동안, 어쩌면 앨런 튜링 이래로 80년 동안, 생각하는 인공물을 만들고 싶어 했다. 그건 공상적인 과학의 꿈이었다. 인류는 30년의 벽에 부딪쳐 좌절했을 때에도, 인공지능은 언젠가는 실현될 거라는 가능성을 놓치 않았다.


제프리 힌턴은 2024년 노벨 물리학상을 수상했다. 인공지능 분야가 물리학과 별 관련이 없다는 점에서 그 자격에 논란이 일었다. 인공신경망에 물리학적(에너지) 관점을 기여한 존 홉필드가 힌턴과 함께 수상했다는 점에서 노벨 위원회는 제프리 힌턴의 자격 논란을 기발하게 회피하려 한 것으로 보인다. 즉, 존 홉필드의 물리학적 기반에 근거해 제프리 힌턴의 연구가 달성될 수 있었기에, 딥 러닝이 구현될 수 있었다는 뜻이다. 재미있게도 인공지능과 아무 관련이 없었던 물리학자 리처드 파인만이 인공지능 분야에 아주 적절한 말을 했다. 책에 따르면, 파인만이 이렇게 얘기한 적이 있다고 한다. “이해하려면 만드는 방법을 알아내야 한다.” 하지만 ChatGPT가 조사한 바에 따르면 파인만은 약간 다르게 말했다. “What I cannot create, I do not understand.” 내가 만들 수 없다면, 나는 그것을 이해하지 못한 것이다. 우리는 인공지능을 만들었다. 그러면 우리는 지능(인공지능뿐만 아니라 인간도 소유한 그 지능)을 이제서야 이해하게 된 걸까? 이에 대해서는 다음번에 기회가 된다면, 나만의 개인적 생각을 말해 보겠다.


책에 대하여

아날 아난타스와미의 『기계는 왜 학습하는가』는 인공신경망의 역사와 수학에 대해 자세히 서술하는 책이다. 다만 그 수학을 언어로 풀지 않고 그대로 수식으로 해설하고 있다는 점, 인공신경망 뿐만 아니라 사실상의 망한 가지들인 최근접이웃, 나이브 베이즈, SVM까지 다루고 있다는 점에서 호불호가 갈릴 수 있다. 책의 중간까지 읽었을 때, 나는 지루한 머신 러닝 교재를 보는 듯한 착각까지 일었다. 중반 이후가 지나서야 인공지능과 인공신경망의 개발 이야기로 복귀했다. 끝까지 읽는다면 인공지능의 시초부터 완성까지의 완벽한 서사를 다룬 ‘인공지능 전기’를 머리속에서 완성해볼 수 있을 것이다.




댓글(0) 먼댓글(0) 좋아요(5)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo