-
-
머신 러닝 마스터 클래스 - 기본기를 바로잡는 9가지 레슨 ㅣ 프로그래밍 인사이트 Programming Insight
민재식 지음 / 인사이트 / 2025년 1월
평점 :
📢"도서출판 ’인사이트‘의 도서 지원을 받아 작성한 리뷰입니다."
#머신러닝마스터클래스 #민재식 #도서출판인사이트 #25년서평 #도서제공📚
본서 《머신 러닝 마스터 클래스》의 저자 민재식 프로그래머는 끊임없이 주어진 상황에서 '근본을 이해하는 능력'을 갖춰야 함을 역설한다. 챗지피티가 잘하는 일, 즉 수많은 문제 해결 사례를 참조해서 그 노하우를 정리하는 능력으론 많은 이들이 우려하 듯 AI에게 자리를 빼앗길지도 모르는 상황에 처하고 말 것이다. 본서는 머신 러닝의 기본기를 다루는 책이기 전에 AI 시대를 맞이하는 프로그래머, 아울러 (나를 포함한) 모든 직장인들의 직무를 대하는 태도를 돌아보게 한다.
✅저자의 글에서 배워가기
'십회구마'란 말이 있다. '회족이 열 명이면 그중 아홉 명은 마씨다'라는 뜻이다. (중략) 당신이 중국 사람을 한 명 만났다. 알고 보니 이 사람 성이 마씨다. 이 사람이 회족일 가능성은 얼마나 될까? 설마 90%라고 답한 사람은 없길 바란다. 회족 중 마씨가 90%라고 했지 마씨 중 회족이 얼마인지는 아직 모른다. (p.2)
✒퀴즈와 함께 시작한 오늘의 서평
머신 러닝에 필수적인 확률적 판단을 이야기 하고자 저자는 두 가지 퀴즈를 활용했다. 첫 번째 퀴즈는 위에 적어둔 퀴즈고, 다음 퀴즈는 이것을 응용하여 뒤이어 주어진 정보를 활용했을 때 이 사람이 회족일 가능성이 변하는지에 대해 묻는다. 나는 정보를 더 알아도 알 수 없다 생각했는데, 우습게도 (적어도) 논리쟁이 기계가 내린 정답은 나와 같았다. 여기서 우리는 "상식 수준이 아닌 냉혹하고도 융통성 없는 논리 수준에서 답을 구하는(p.3)" 기계의 명령 처리를 이해해야 한다.
기계(머신)는 상식적 판단 능력을 심어주는 작업과 함께 수많은 확률 속에서 정답을 찾아가는 과정을 거친다. 불확실성 속에서, 데이터 속에서 확률을 찾아가는 여정에는 필연적으로 노이즈가 생긴다(노이즈란 불량 데이터 뿐만 아니라 원래의 학습 목적에 부합하지 않는 모든 정보를 의미한다).
학습 데이터는 내가 모델에게 내리는 일종의 명령서인데, 노이즈가 생기는 문제는 학습 데이터라는 눈에 보이는 현상이 실제 현실을 온전히 반영하지 못해서 생긴다. 그리고 이 문제는 완벽하게 예방할 수 없다. 왜냐하면 기계의 학습 모델은 시그널(필요한 정보)과 노이즈를 구분하지 못한다. 결국 이것이 오버피팅(일반 데이터에서 오류가 발생, 제대로 설명하지 못하는 현상)을 유발한다. (p.98-100)
그렇기 때문에 이러한 머신 러닝의 학습 모델에는 '학습 규제'라는 사전 조건을 걸어 학습될 파라미터들에 제시한다. 이 조건은 기계가 무작정 학습에 들어가지 않고, "그래도 넘지 말아야 할 선이란 게 존재한다"는 알람을 주는 것이다. (p.101-102)
기계를 학습하기 위한 학습 모델의 단계는 9가지로 나뉘어 있지만, 이 책의 주요 독자가 딥러닝과 머신 러닝 중급자이기 때문에 (엔트로피에 대한 설명을 넘기고서 오히려 편하게) 마지막 레슨, 「자만에 빠진 AI, 그래서 미덥지 못한 AI」를 논하고자 한다.
우리가 우려하는 AI의 영역은 답변을 보고 진위 여부를 판별할 수 없는 상황(p.261)이다. 이러한 상황에서 우리는 AI의 답변을 온전히(100%) 신뢰할 수 있을까? 저자는 오늘까지의 AI 발전, 머신 러닝의 방향이 정확도를 높이는데 치중한 나머지 확신도, 그리고 정확도와 확신도를 일치시키는 캘리브레이션은 오히려 나빠졌음을 역설한다. 또한 저자는 AI의 자만은 정답에만 높은 확률을 배당하는 학습의 오류, 확신도가 오버피팅에 이르렀을 때도 정확도만을 좇다가 생긴 기계의 과도한 자기 과신 현상이 벌어졌음을 면밀히 밝힌다. 결국 신뢰도, 즉 캘리브레이션이 희생되어 기계는 자기가 아는 세상이 전부인 줄 착각하는 것이다.
이러한 착각은 (이번 서평에서 주된 주제로 다루려 했던) AI 신약 개발에 있어서도 굉장한 리스크가 된다. 현재는 기존 연구개발 인력이 AI를 활용해 신물질 합성과 탐구에 가이드를 잡을 수 있지만, 그 속도가 빨라지기 시작하면 AI의 정확도와 확신도 사이의 밸런스 붕괴는 크나큰 인적/물적 자원의 손실로 귀결될 가능성이 있다. 그렇기에 저자가 말한대로 "오류를 줄이는 데에만 치중할 것이 아니라 과도한 확산을 줄이는 노력도 똑같이 해야한다.(p.284-285)"
앞으로의 머신 러닝은 스스로의 한계를 알고, 필요할 때 인간에게 도움을 요청하는 형태로 발전할 때 인간과의 공존이 가능하다. 아울러 우리는 변화하는 환경에 대응해야 한다. 🔥
"환경은 계속 변할 것이고 준비된 자만이 적응해서 살아남을 수 있다. 이 책을 통해 당신의 미래에 대한 대응 능력치에 변화가 생겼기를 바란다. 물론 조급해 하지는 말자. 정말 중요한 것은 환경에 적응할 준비를 하는 것이다."
*기계가 인간을 이기는 일은 산업혁명 때부터 있어 왔다. 어떻게 대비하고, 어떠한 역량을 갖춰야 하는지를 고민할 때이지, 막연한 AI 공포에 휩싸여 "아~ 나 이거 해야 했는데 못했다."로 귀결되는 인생을 살아서는 안 된다. (끝)