-
-
마스터 알고리즘 - 머신러닝은 우리의 미래를 어떻게 바꾸는가
페드로 도밍고스 지음, 강형진 옮김, 최승진 감수 / 비즈니스북스 / 2016년 7월
평점 :
이 책의 가장 큰 목표는 당신이
머신러닝의 비밀에 들어서게 하는 것이다. 차량의 엔진이 어떻게 작동하는가는 기술자와 정비공만 알면 된다. 반면 운전대를 돌리면 차량의 진행
방향이 바뀌고 브레이크를 밟으면 차량이 멈춘다는 것은 모든 운전자가 알아야 한다. 그런데 우리는 머신러닝을 사용하는 방법은커녕 머신러닝에서
운전대나 브레이크에 해당하는 게 무엇인지조차 모른다. 이 책은 당신에게 머신러닝을 효과적으로 사용하려면 알아야 하는 개략적인 지식, 개념 모형을
소개한다. - '들어가는 말'
중에서
머신러닝을 아시나요?
세계를 강타한 알파고
쇼크와 제4차 산업혁명의 이슈로 인해 인공지능과 머신러닝(기계학습)에 대한 관심의 규모는 날로
폭발하고 있다. 구글, 마이크로소프트, 페이스북, 아마존 등 거대 기업들은 서로 경쟁하듯 머신러닝에 많은 돈을 투자하고 있으며 최고의 머신러닝
전문가들을 중심으로 인하우스팀을 꾸리고 연구·개발에 전폭적인 지원을 아끼지 않는 등 분야 선점에 사활을 걸고 있다.
국내에서도 이에 발맞춰
머신러닝은 무엇이며 왜 모든 글로벌 기업들이 그토록 여기에 기대를 하고 있는지, 떠오르는 이 기술을 향후 어떻게
그리고 어떤 분야에 도입하고 활용해나가야 하는지에 대한 논의가 활발해지고 있다. 최고의 머신러닝 입문서로 평가받는 이 책은 데이터 과학 분야의
최고 영예인 SIGKDD 혁신상을 2년 연속 수상한 세계 최고의 머신러닝 분야 전문가 페드로
도밍고스가 집필했는데, 인공지능과 머신러닝의 탄생부터 어떻게 기계들이 스스로 학습할 수 있게 되었는지를 밝히고 나아가 이 기술이
우리의 미래를 얼마나 경이롭게 바꿔놓을지 생생하게 보여준다.
캘리포니아대학 어바인캠퍼스(UC
Irvine)에서 정보 및 컴퓨터과학 박사 학위를 취득했던 그는 시애틀 워싱턴대학의 컴퓨터과학 및 공학
교수로 재직 중이며, 머신러닝 분야의 선구적인 전문가로 세계적인 주목을 받는 가운데 풀브라이트 펠로우십, 슬론 펠로우십, 미국국립과학재단의
CAREER상, IBM 교수상 등을 수상하며 명성을 쌓아왔다.
그의 주요 연구 분야는 머신러닝과 데이터 마이닝으로 컴퓨터가 인간의 도움을 더 적게 받으면서 더 많이 일하고, 경험을
통해 배우면서 새로운 지식을 발견하는 것을 목표로 한다. 그는 새로운 방향을 제시하는 창조성과 기술적 깊이 면에서 그 탁월함을 인정받고 있는데,
특히 머신러닝과 인공지능 그리고 철학의 오랜 과제였던 '어떻게 논리와 확률을 통합할 것인가'에 관한 문제를 풀어낸
것으로 잘 알려져 있다.
이 연구는 과학전문지 <뉴
사이언티스트>에 커버스토리로 소개되기도 했다. 지금까지 120개가 넘는 전 세계 대학, 연구실, 컨퍼런스에 연사로
초청되었으며 그의 머신러닝 강좌는 워싱턴대학 내 최고의 수업으로 선정되고 있다. 2001년 설립된 국제머신러닝협회의 공동 창립자이자
인공지능발전협회의 특별회원인 그는 현재 워싱턴대학 외에도 스탠퍼드대학, 매사추세츠공과대학, 카네기멜론대학의 교환교수로 활동
중이다.
나아가 그는 단순히 머신러닝이
무엇인지 그 정체를 밝히는 데에 그치지 않고 인류를 다음 단계의 진화로 이끌어낼 만큼 파급력 있는 '새로운
머신러닝'의 탄생을 제시한다. 스팸메일의 분류, 아마존과 넷플릭스의 추천 콘텐츠, 투표자와 고객의 성향 분석 등 이미 사용되고
있는 다양한 머신러닝 기술에는 사실 그 쓰임과 분야에 따라 각기 다른 알고리즘이 사용되고 있다. 같은 추천시스템을 구축했지만 아마존과 넷플릭스의
머신러닝 알고리즘이 다른 것처럼 말이다.
반면에 그는 모든 분야와 지식을
아우르는, 범용적으로 사용할 수 있는 단 하나의 '마스터 알고리즘'을 만들어낼 수 있다는 대담한 주장을 한다.
그리고 마침내 마스터 알고리즘이 탄생되었을 때 데이터에서 세상의 모든 지식을 이끌어내는 유례없는 과학적 진보가 일어날 것이라 예견한다. 이렇듯
그는 마스터 알고리즘을 탄생시키는 과정에 우리들을 초대함으로써 새로운 머신러닝의 세계로 안내한다.
머신러닝의 혁명이 시작되다
모든 알고리즘은 입력과 출력이 잇다.
데이터를 컴퓨터에 넣으면 알고리즘이 처리하여 결과를 출력한다. 회사의 회계팀에서 발생한 전표를 입력하면 바로 회계 과목으로 집게되는 것처럼
말이다. 그런데, 머신러닝은 이 과정을 바꾸었다. 데이터와 원하는 결과를 넣으면 데이터를 결과로 바꿔 주는 알고리즘을 내놓는다. 머신러닝은 다른
알고리즘을 만들어 내는 알고리즘인 것이다. 머신러닝을 통해 컴퓨터가 스스로 프로그램을 작성하므로 사람은 작성할 필요가
없다.
왜 구글이 야후보다 훨씬 더 가치가
있을까? 둘은 모두 광고를 보여주고 돈을 벌어들이는 웹사이트다. 하지만 구글의 머신러닝 알고리즘이 야후보다 훨씬 낫다. 웹사이트 광고는 광고주의
매출액에 영향을 미친다. 클릭 수가 예상에 못 미치면 결국 비용의 낭비이고, 매출의 감소로 이어진다.
머신러닝이 한 회사의 상품을 확실히
좋아하도록 할 수 있는 최선의 방법은 회사가 직접 머신러닝을 수행하는 것이다. 최선의 알고리즘과 최대의 데이터를 보유한 기업이 승리한다. 이로써
새로운 종류의 순환 고리가 생긴다. 가장 많은 고객을 보유한 회사가 가장 많은 데이터를 수집하고 가장 좋은 모형을 학습하고 가장 많은 신규
고객을 얻으며, 이러한 선순환이 계속 이어지는 것이다(경쟁사로서는 악순환이다). 구글에서 빙으로 옮기는 것은 윈도우에서 맥으로 옮기는 것보다
쉽겠지만 실제로 사람들이 옮기지 않는 까닭은 분명하다.
이렇게 적은 수의 머신러닝이 이렇게
많은 일을 한다면 '하나의 머신러닝 알고리즘이 모든 일을 할 수 있지 않을까?'라는 질문이 논리적으로 이어진다. 표현을 달리하면 '하나의
알고리즘이 데이터에서 배울 수 있는 모든 것을 다 배울 수 있을까?'가 된다. 성인의 두뇌에 담긴 모든 것과 진화로 창조된 모든 것, 과학
지식의 총합을 전부배워야 하기 때문에 이것은 매우 어려운 주문이다.
이 책의 중심 가설이 여기에 있다. 세상의 모든 지식, 즉 과거, 현재, 미래의 모든 지식은 단 하나의 보편적 학습
알고리즘으로 데이터에서 얻어낼 수 있다. 저자는 이 머신러닝을 마스터 알고리즘(master algorithm)이라
부른다. 만약 이런 알고리즘이 가능하다면, 이 알고리즘을 발명하는 일은 역사상 가장 위대한 과학의 성취가 될
것이다.
신경망의 첫 번째 성공은
주식 시장을 예측하는 일이었다. 신경망은 방해되는 부분이 많이 섞여 있는 데이터에서 작은 비선형 특성들을 감지할
수 있기 때문에 선형 모형보다 더 좋은 성능을 보였으며 금융계에서 유행했다. 전형적인 투자 기금은 많은 주식
종목에 대해 개별적으로 신경망을 학습시켜 가장 유망한 주식 종목을 고르게 하고 인간 분석가가 그들 중에서 어느 종목에 투자할지를 정하게 한다.
하지만 일부 투자 기금은 모든 과정을 머신러닝에 맡겨 주식 종목을 사고 팔게 한다. 이런 기금이 정확히 얼마나 성과를 냈는지는 철저하게 비밀로
유지되지만, 헤지펀드가 머신러닝 전문가들을 계속 놀라운 속도로 휩쓸어가는 건 우연이 아닐 것이다.
또 다른 사례는 자동차
운전 학습이다. 운전자가 없는 차가 처음으로 대중에게 알려진 것은 미국 방위고등연구계획국이 개최한, 2004년과 2005년의
자율차량경연대회였다. 하지만 이보다 10년전 카네기멜론대학의 연구자들이 이미 다층
퍼샙트론을 훈련하여 동영상으로 도로를 감지하고 적절하게 운전대를 돌리게 함으로써 자동차를 운전하는 데
성공했다.
무인주행
구글카
한쪽만 보면 머신러닝은 데이터
수집과 인간의 기여 부분에 가려 암 박멸 연구 과제의 작은 부분에
불과해 보이기도 한다. 하지만 다른 쪽에서 보면 머신러닝은 전체 사업의 핵심이다. 머신러닝이 없으면 암에 대한 생물학 지식은 수천의
데이터베이스와 수백만 과학 저술, 작은 부분만 아는 의사들에게 흩어지고 우리에게는 암에 대한 파편화된 생물학 지식만 있을 것이다. 이런 지식을
일관성 있게 하나로 모으는 것은 아무리 똑똑하더라도 사람이 혼자서 할 수 있는 일이 아니다. 오직 머신러닝만 할 수 있다. 모든 암이 서로
다르기 때문에 공통의 유형을 찾으려면 머신러닝이 필요하다. 조직 하나만 해도 수심억 가지 정보를 내놓기 때문에 새로운 환자에게 개별적으로 무엇을
해야 하는지 파악하려면 머신러닝이 필요하다. 암 박멸 알고리즘을 만들려는 노력은 이미 진행
중이다.
기술이 발전하면서 사람과 기계의 조합이
구체적으로 나타난다. 하지만 여전히 우리는 결국 인간을 위한 직업은 없어질 것 아니냐고 의문을 제기할 수 있다.
이에 대한 저자의 생각은 다르다. 컴퓨터와 로봇이 모든 일을 인간보다 잘하는 날이 온다 하더라도(가까운 장래는 아니다) 적어도 우리 중 일부는
일자리를 보전할 것이다. 가벼운 대화까지 하며 완벽하게 인간을 흉내 내는 로봇 바텐더가 생길 테지만 고객들은
사람인 바텐더를 더 선호할 것이다.
저자가 의미하는 것은 인간이 되는
경험을 하지 않고서는 이해할 수 없는 모든 것에 해당되는 인간성이다. 우리는 인간성이 점차 사라진다고 걱정하지만
다른 직업들이 자동화되면 잿더미에서 다시 일어날 것이다. 더 많은 일이 기계로 저렴하게 수행될수록 인간미 넘치는 사람이 기여하는 부분은 더 가치
있을 것이다.
아직 마스터 알고리즘은 없다
머신러닝의 비밀을 조금 이해할 수
있었다. 하지만 이 여행이 끝나려면 아직 멀었다. 그저 어떤 모습일까 슬쩍 살펴본 정도다. 우리에겐 새로운 아이디어가 필요하다. 이미 있는 것을
단순히 변형하는 것은 아이디어가 아니다. 어느날 누군가 마스터 알고리즘을 발명한다면 이는 인류 공동의 재산이 되어야 할 것이다. 특히
공학도들에게 이 책의 일독을 권한다.