그러나 세상에는 논리만으로 설명할 수 없는 것들이 있다. 예컨대 낙하라는 현상을 자세히 관찰해 보면 반드시 만유인력의 법칙으로 계산한 대로만 되지는 않는다. 깃털처럼 가벼운 물체가 낙하할 때를 상상해보면 쉽게 이해할 수 있을 것이다. - P122
그러나 논리에 확률을 추가하더라도 제대로 표현할 수 없는 것들이있다. 논리처럼 확실하게 일어나지도, 주사위처럼 완전히 무작위로 일어나지도 않는 일들이다. (중략). 논리와 확률로 다루기가 특히 어려운 것이 인간의 의지다. - P123
확률과 통계는 언뜻 비슷해 보이지만 접근 방법이 정반대이다. 확률은 이론에 바탕해 결과를 예측하지만, 통계는 이미 존재하는 데이터를 분석해서 가설을 찾아낸다. 수학은 4,000년이라는 시간을 들여서 논리, 확률, 통계라는 표현 수단을 획득했다. 그러나 거꾸로 생각하면 이는 수학이 설명할 수 있는대상은 논리적으로 말할 수 있는 것과 확률 및 통계로 표현할 수 있는것뿐이라는 의미이기도 하다. - P124
수학이 발견한 논리, 확률, 통계라는 세 가지 언어에 결정적으로 부족한 점이 또 하나 있다. 그것은 ‘의미‘를 기술할 방법이 없다는 점이다. - P125
인간이라면 누구나 쉽게 이해할 수 있는 "나는 당신을 좋아해"와 "나는 카레를 좋아해"의 본질적인 의미 차이도 수학으로 표현하기에는 매우 까다로운 문제다. - P125
시리(Siri)는 현자인가?
"근처에 있는 맛없는 이탈리아 음식점을 찾아줘"
컴퓨터는 의미를 이해하지 못한다. 이것이 진정한 의미에서의 AI가실현되는 것을 가로막는 거대한 벽으로 작용하고 있다. (중략). 물론 AI 연구자들도 팔짱 끼고 있는 것은 아니다. 연구자들은 AI가 의미를 모르는 것은 이쩔 수 없지만 적어도 의미를 이해하는 것처럼 행동하도록 만들기 위해 부단한 노력을 거듭해 왔다. - P126
이번에는 "이 근처에 있는 맛없는 이탈리아 음식점은?"이라고 시리에게 물어보자. (중략). 시리는 ‘맛없다‘와 ‘맛있다‘의 차이를 모르기 때문이다. 그렇다면 이번에는 "이 근처에 있는 이탈리아 음식점 이외의 음식점은?"이라고 질문해 보자. (중략). 요컨대 시리는 ‘이외의‘라는 말의 의미 또한 이해하지 못하는 것이다. - P127
뒤에서 자세히 설명하겠지만, 정보 검색이나 자연언어 처리 분야에서는 현재 통계와 확률 수법으로 AI가 언어를 학습하도록 하고 있다(논리적 수법은 일단 포기한 상태다). 즉, 문장의 의미는 몰라도 해당 문장에 나오는 (이미 아는) 단어와 그 조합에 입각해서 통계적으로 추측해 옳을 것 같은 답변을 이끌어내는 방식이다. 여기서 통계의 근간이 되는 데이터는 많은 사람이 시리를 사용할수록 점점 더 쌓이게 된다. 그러면 이를 이용해 시리가 자율적으로 기계학습을 거듭함으로써 정확도를 높이는 구조를 취하고 있다. - P128
시리한테 "나와 결혼해 줘!"라고 말하면 "저는 결혼이 체질적으로 안 맞는 것 같아요"라든가 "저랑 결혼하고 싶어 하는 사람들이 한둘이 아니라는 사실을 잊지 마세요" 같은 절묘한 대답을 하는 것은 기계 학습에 따른 결과물이 아니다. 관계자가 수작업으로 입력해 넣은 것이다. - P129
2017년 4월 TED에 초빙되어 강연을 했을 때, 같은 세션 강연자 가운데 시리의 메인 엔지니어인 톰 그루버(Tom Gruber)가 있었다. 당연히시리가 어떻게 사람의 말을 이해하게 되었느냐는 내용의 강연을 할 예정이었을 것이다. 그런데 의도한 것은 아니지만 앞선 강연에서 내가 먼저AI가 어떤 식으로 세계사 문제를 푸는지 비밀을 밝혀버리는 바람에 원래 하려던 이야기를 하기가 곤란한 처지에 놓였다. - P129
논리로는 공략할 수 없는 자연언어 처리
통계적 수법이 등장하기 이전, 자연언어 처리 기술을 이용한 자동 번역이나 질의응답 분야의 연구자들은 AI에 문법 등의 언어 규칙을 기억시키고 논리적·연역적 방법으로 정확도를 높이려 했다. 그러나 아무리 시도해도 실패만 거듭할 뿐이었다. - P130
다음 두 문장에 대해 생각해 보자.
경보기는 분해나 개조를 해서는 절대 안 됩니다. 미성년자는 음주나 흡연을 해서는 절대 안 됩니다.
이 두 문장은 언뜻 보았을 때 구조적으로 비슷해 보인다. 그러나 일본어에 대한 기본적인 이해가 있는 사람이라면 두 문장의 구조가 완전히 다르다는 것을 금방 알 수 있다. 후자의 주어는 ‘미성년자‘이지만, 전자의 주어가 ‘경보기‘일 리는 없다. - P130
현재의 AI는 논리적으로 문장을 읽거나 생각하지 못한다. - P131
통계와 확률을 사용하면 의외로 적중률이 높다
앞에서 이야기했듯이 오늘날 자연언어처리 분야에서 성공을 거둔 기업은 모두 그동안의 실패에서 교훈을 얻었다. (중략). 다만 통계로는 논리와 같은 확실한 추론을 하기가 어렵다. 또한 경험한 적이 없는 사례에 대해 어떻게 판단할지도 예상할 수 없다 - P132
도쿄 대학 의과학 연구소에 도입된 왓슨은 "의료 논문은 사람에게 새로운 의학적 지식을 전달하기 위해 쓰인 것이다. 그럴 때 사람은 어떤 식으로 쓰는 경향이 있는가?", "전자 카르테는 의사가 환자의 진료 경과등을 기록한 것이다. 그럴 때 사람은 어떤 식으로 쓰는 경향이 있는가?" 를 통계적으로 산출함으로써 병명을 찾아내는 작업을 지원한다. 그러므로 왓슨이 도쿄 대학의 의사가 반년 동안 찾아내지 못했던 희귀병을 진단해 냈다는 뉴스를 보고 "왓슨의 진단 능력이 인간을 넘어셨다"라고 이해하는 것은 잘못이다. 왓슨은 진단을 하지 못한다. - P133
"결과적으로 AI의 진단 정확도가 인간을 능가한다면 기계에게 진단을 맡기는 편이 더 마음 놓이지 않을까?"라고 생각하는 사람도 있을지 모르겠다. 그러나 이는 크나큰 오해다. 시리를 떠올려보라. 근처에있는 이탈리아 음식점은 순식간에 찾아주지만 ‘맛있다‘와 ‘맛없다‘ ‘이탈리아 음식점‘과 ‘이탈리아 음식점 이외의 음식점‘을 구별하지 못하는것이 AI다. - P134
3장
전국 독해력 조사를 통해 드러난 충격적인 현실
민간은 AI가 하지 못하는 일을 할 수 있을까?
결국 커뮤니케이션 능력과 이해력이다
(전략). 요컨대 지금 다가오고있는 것은 노동자의 절반을 실업의 위기에 빠뜨릴지도 모를 정도의 실력을 갖춘 AI와 함께 살아가야 하는 미래다. - P171
좀 더 자세히 설명하자면 AI의 약점은 1만 개를 가르쳐야 간신히 하나를 아는 것, 응용력이 없는 것, 유연성이 없는 것, 정해진(한정된) 프레임(틀) 속에서만 계산 처리를 할 수 있는 것 등이다. 거듭 이야기했듯이AI는 ‘의미를 모르기 때문이다. 그러므로 이와는 반대로 하나를 들으면열을 아는 능력이나 응용력, 유연성, 프레임에 얽매이지 않는 발상력 등을 갖추고 있다면 AI를 두려워할 필요가 없는 셈이다. - P174
일본인만의 문제가 아니다
이 책의 머리말에서도 언급했지만, 결론부터 말하면 현재 일본의중·고등학생의 독해력은 심각한 상황이라고 해도 과언이 아니다. 대부분의 학생들이 중학교 교과서의 문장조차 제대로 이해하지 못한다. "뭐야, 중·고등학생이면 아직 어리잖아? 앞으로 나아지겠지"라고 생각해서는 안 된다. 독해력이라는 교양은 대개의 경우 고등학교를 졸업하기 전에 확립된다. 특별한 훈련을 받는다면 성인이 된 뒤에도 독해력이 비약적으로 향상될 수 있지만 그런 사례는 매우 드물다. - P175
수학을 못하는 것인가, 문제를 이해하지 못하는 것인가?
대학생 수학 기본 조사
대화가 성립하지 않는다
(전략). 국공립·사립을 막론한 전국의 대학에 협조를 요청해 대학생 6,000명의 수학 실력을 조사한 것이다. 48개 대학의 90개 학과가 이 조사에 협력했다. 조사 대상의 대부분은 대학 입시를 갓 마친 1학년 신입생들로, 입시를 위해서 공부했던 수학은 이미 전부 잊어버렸어"라고는 말할 수 없는 처지였다. - P177
이를테면 우리는 학생들에게 다음과 같은 문제를 풀게 했다.
문제 홀수와 짝수를 더하면 어떻게 될까? 다음의 선택지 중 옳은 것에 ○를 기입하고 왜 그런지 이유를 설명하시오.
ⓐ 언제나 반드시 짝수가 된다. ⓑ 언제나 반드시 홀수가 된다. ⓒ 홀수가 될 때도 있고 짝수가 될 때도 있다. - P178
상당히 관대하게 채점했음에도 이 문제의 정답률은 34퍼센트에 불과했다. - P178
가장 전형적이고 흔한 오답은 짝수를 2n으로, 홀수를 2n+1로 놓고2n+ (2n+1) = 4n+1이므로 답은 홀수라고 적은 경우였다. 이것은 2+3이라든가 10+11처럼 연속된 짝수와 홀수의 합이 홀수라는 것밖에 설명하지 못하므로 정답이 될 수 없다. - P179
여름방학에 수학자 열두 명이 모여서 사흘 동안 좁은 방에 틀어박혀 6,000장이나 되는 답안지를 전부 손수 채점했다. (중략). 우리 수학자들은 수학의 답안은 수학자가 아니면 채점할 수없다고 생각하기 때문이다. - P179
예 3: (가) 짝수를 홀수로 만들려면 짝수를 더해서는 안 되고 홀수를 더해야 한다. (나) 짝수를 더하는 것은 합의 홀짝에 영향을 끼치지 않기 때문에 홀수에 짝수를 더하면 언제나 반드시 홀수가 된다. 이와 같이 질문한 내용을 그대로 되풀이해 쓰는 ‘동어반복형‘도 상당 수 있었다. - P180
사립대학을 편차치에 따라 S, A, B, C급으로 구분하면 B와 C에서는 문과와 이과를 불문하고 전체 학과의 3분의 1 이상에 위와 같은 심각한 유형의 오답을 적은 학생이 있었다. 반면 국립 S에서는 문과와 이과를 통틀어 그런 답안이 거의 눈에 띄지 않았다. - P181
이러한 실태를 보고서로 작성하자 인터넷상에서는 "수학자의 유토리세대¹⁶ 두들기기"라는 비판이 일었다.
16 주입식 교육에서 벗어나 사고력을 키우는 데 중점을 둔 소위 유토리 (1) 여유) 교육을 받은 세대. 일반적으로는 1987년부터 2004년 사이에 태어나고 자란 젊은이들을 가리킨다. - P181
또한 독자 여러분 중에는 성적과 무관한 조사이므로 진지하게 답안을 적지 않은 학생이 많은 것 아니냐고 의심하는 사람도 있을 것이다. 지당한 추측이라고는 생각하지만 우리는 대부분의 학생이 진지하게 조사에 응답했다고 판단하고 있다. - P182
학생이 논리적인 대화의 캐치볼을 할 수 있는 능력을 갖추지 못한 채대학에 들어오면 대학에서 가르칠 수 있는 것이 제한된다. 그런 상황에서는 학생들이 얻을 수 있는 것도 적다. - P183
이번에는 선택식 문제를 소개하겠다.
문제 다음 제시문을 읽고 이어지는 서술 가운데 확실히 옳다고 할 수 있는것에는 ㅇ를, 그렇지 않은 것에는 X를 기입하시오.
공원에 아이들이 모여 있습니다. 남자아이도 여자아이도 있습니다. 유심히 관찰하니, 모자를 쓰지 않은 아이는 모두 여자아이입니다. 그리고 운동화를 신은 남자아이는 한 명도 없습니다.
① 남자아이는 모두 모자를 썼다. ② 모자를 쓴 여자아이는 없다. ③ 모자를 쓰고 운동화를 신은 아이는 한 명도 없다. - P184
이 문제의 정답률은 64.5퍼센트였다. 입시에 필요한 기술을 무엇 하나 요구하지 않는 문제임에도 국립 S에서는 85퍼센트가 정답을 맞힌반면에 사립 B, C에서는 정답률이 50퍼센트를 밑돌았다. 그렇다면 많은 고등학생이 동경하는 사립 S의 정답률은 어땠을까? 국립 S에 비해20퍼센트포인트나 낮은 66.8퍼센트에 머물렀다. - P184
전국 2만 5,000명의 기초 독해력을 조사하다
문장을 읽고 내용을 이해할 수 있는가?
‘대학생 수학 기본 조사‘를 실시한 후 나는 일본 학생들의 기본적인 독해력에 의문을 품게 되었다. - P185
사전에 실린 ‘독해력‘이라는 말의 뜻 그대로, 문장을 읽고 그 내용을이해하는 능력에 대한 것이다. 요컨대 많은 대학생들이 수학 기본 조사의 문제 자체를 이해하지 못한 것이 아닌가 하는 의문이었다. - P185
도로보군의 공부를 바탕으로 리딩 스킬 테스트를 개발하다
기초 독해력을 조사하기로 결정은 했지만, 그런 조사는 지금까지 세계에서 누구도 실시한 적이 없기 때문에 이렇다 할 조사 방법이 없었다. 그래서 기초 독해력을 조사하기 위한 리딩 스킬 테스트(ReadingSkill Test, RST)를 자력으로 개발했다. - P186
AI가 어절과 의존 구조, 조응을 이해하면 단순한 문장은 읽을 수 있다. 조응이나 의존 구조라는 말이 귀에 익숙하지 않을지도 모르지만 앞으로 자주 나올 테니 기억해 주기 바란다. - P187
의존 구조나 조응은 자연언어 처리 분야에서 이미 활발한 연구가 이루어지고 있다. 한편 오랫동안 연구되어 왔음에도 좀처럼 정확도가 오르지 않는 것도 있다. 바로 ‘동의문 판정이다. ‘동의문 판정‘은 서로 다른 두 문장을 읽고 비교해서 의미가 같은지 여부를 판정하는 것이다. - P187
그 밖에 우리는 의미를 이해하지 않는, 프레임 문제를 해결하지 못한상식이 결여된 AI로서는 하지 못하는 것, 즉 인간이 AI에 맞서 이길 가능성이 있는 중요 분야로 ‘추론‘, ‘이미지 동정(同)‘, ‘구체예(具體例)동정‘이라는 과제를 새로 설정했다. - P188
RST는 AI의 정답률이 80퍼센트가 넘는 ‘의존 구조‘나 급속히 연구가 진행되고 있는 ‘조웅‘, AI한테는 아직 어려운 듯한 ‘동의문 판정 AI가 넘을 수 없는 벽인 ‘추론‘ ‘이미지 동정, ‘구체에 동정(사전적 정의·수학적 정의)‘의 6개 분야로 구성되어 있다. - P188
(전략). 교과서는 그 대표적인 예로, 교과서를 읽고 이해하지 못하면 고등학교 입시나 대학 입시에서 명백히 불리한 입장에 놓인다. 신문도 마찬가지다. 신문에 적힌 내용을 이해하지 못하면 세상이 어떻게 돌아가는지 알 수 없다. - P189
RST에는 다른 테스트와 다른 또 한 가지 특징이 있다. 수험자 전원이 같은 문제를 푸는 게 아니라는 것이다. 예제를 다 풀었으면 컴퓨터가 수백 문제 가운데 무작위로 문제를 선정해서 제시한다. 한 문제의 답을 적으면 다시 무작위로 다음 문제가 출제된다. 각 분야별로 설정된 제한 시간이 끝날 때까지 계속해서 이런 방식으로 테스트가 진행된다. 어떤 수험자는 20문제를 풀고, 다른 수험자는 5문제밖에 풀지 못할지도 모른다. 그것까지도 포함해서 수험자의 기초 독해력을 진단한다. - P189
RST 예제 소개
RST가 구체적으로 어떤 테스트인지 이해할 수 있도록 예제를 몇 가지 소개하겠다.
(중략).
예제 2 조응 다음 문장을 읽으시오.
화성에는 생명이 존재할 가능성이 있다. 과거에 대량의 물이 있었던 증거가 발견되었으며, 현재도 화성 지하에는 물이 있을 가능성이 있다.
문맥을 고려했을 때 다음 문장의 빈칸에 들어가기에 가장 적당한 말을 선택지에서 하나만 고르시오.
과거에 대량의 물이 있었던 증거가 발견된 것은 ( )이다.
① 화성 ② 가능성 ③ 지하 ④ 생명
(정답: ① 화성) - P191
예제 4 추론 다음 문장을 읽으시오.
에베레스트산은 세계에서 가장 높은 산이다.
위의 문장에 적힌 내용이 옳다고 할 때, 아래의 문장에 적힌 내용이 옳은지 여부를 ‘옳다‘, ‘틀렸다‘, 이것만으로는 ‘판단할 수 없다‘ 중에서 대답하시오.
엘브루스산은 에베레스트산보다 낮다.
① 옳다 ② 틀렸다 ③ 판단할 수 없다
(정답: ① 옳다) - P192
중학생 세 명 중 한 명이 간단한 문장을 읽지 못한다
알렉산드라의 애칭은?
그러면 이제 조사 결과와 분석으로 넘어가자. 놀라지 말기 바란다. 앞에서 이야기했듯이 ‘심각한 상황‘임을 이해할 수 있을 것이다. - P194
[표3-2]가 무엇을 의미하는지 알겠는가? "중학생의 62퍼센트, 고등학생의 72퍼센트가 정답을 맞혔다"가 아니다. "중학생 세 명 중 한명이상이, 고등학생 열명 중 세 명 가까이가 정답을 맞히지 못했다"라고 이해해야 한다는 것이 내 생각이다. - P195
"고등학생 중에는 반항기에 접어든 학생도 있을 테고, 성적과 무관한 테스트라서 진지하게 응답하지 않은 것이 아닐까요?"라는 질문을 종종받는다. ‘대학생 수학 기본 조사 때도 같은 질문에 시달렸다. 그러나 여기에 대한 나의 답변은 "그렇지 않다"이다. 첫 번째 선택지인 ‘힌두교‘를고른 학생이 매우 적다는 데서 이를 확인할 수 있다. - P196
한편, 출제된 문제가 수험자의 독해력을 측정하기에 부적절할 가능성에 관해서는 항목 특성을 조사함으로써 검증하고자 했다. RST에 수록된문제의 난이도는 사전에 미리 평가할 수 없다. 수만 명 규모로 조사를 실시해 문항별 정답률을 비교했을 때 비로소 각 문제의 난이도를 추계할수 있는 것이다. - P197
(전략), 이전부터 교과서를 잘 읽지 못하는 학생이 늘어나고 있음을 깨닫고 수업 시간에 사회 교과서를 소리 내어 읽힌다고했다. 그 선생님이 가르쳐준 오독의 예를 몇 가지 소개하겠다.
수상(相)→슈소 동서(東西)→도세이 설립(立)→세이리 쓰대기업(大)→ 다이데 잔업)→노코리교 물리(理)→모리 문부(部)→분부 사용하다(用)→요이루 거주지→ 이주치 현역(現役)→겐야쿠¹⁷
17 올바른 일본어 발음은 앞에서부터 각각 ‘슈쇼, 도자이, 세쓰리쓰, 오테, 잔교, 부쓰리, 몬부, 모치이루, 교주치, 겐에키‘이다. - P201
다음은 지금까지 만든 문제 가운데 난도가 특히 높았던 의존 구조 문제다.
다음의 문장을 읽으시오
아밀라아제라는 효소는 글루코오스가 이어져서 생긴 전분을 분해하는데, 같은 글루코오스로 만들어졌지만 모양이 다른 셀룰로오스는 분해하지 못한다.
문맥을 고려했을 때 다음 문장의 빈칸에 들어가기에 가장 적당한 말을 선택지에서 하나만 고르시오.
셀룰로오스는 ()과(와) 형태가 다르다.
① 전분 ② 아밀라아제 ③ 글루코오스 ④ 효소
모 신문사의 논설위원부터 산업성의 관료에 이르기까지 어째서인가 글루코오스를 선택하는 바람에 충격을 받았는데, 정답은 ① 전분이다. - P202
동의문 판정을 하지 못하는 학생들
AI가 풀이에 유독 어려움을 겪는 문제 유형이 있다. 두 문장을 읽고비교해서 의미가 같은지 다른지를 판정하는 ‘동의문 판정‘ 문제다. 예를 들면 이런 것이다.
문제 3 다음 문장을 읽으시오.
1639년 막부는 포르투갈인을 추방하고 다이묘에게 연안의 경비를 명령했다.
위의 문장이 나타내는 내용과 아래의 문장이 나타내는 내용은 같은가? ‘같다‘, ‘다르다‘ 중에서 대답하시오.
1639년 포르투갈인은 추방되었고 막부는 다이묘에게서 연안의 경비를 명령받았다.
연안 경비를 명령받은 쪽은 다이묘이므로 답은 당연히 ‘다르다‘이다.
이것은 AI에게 상당히 어려운 문제다. 두 문장에 등장하는 단어가 거의같기 때문이다. 그러나 안타깝게도 "역시 인간이 더 우수하지"라며 기뻐할 수 없다. - P203
동의문 판정 문제는 ‘같다‘와 ‘다르다‘의 양자택일이므로 동전을 던져서찍어도 50퍼센트는 맞힐 수 있다. 다시 말해, 이 문제에 대한 중학생의 정답률이 동전 던지기 수준이라는 것이다. 이것이 심각한 일인지 아닌지를스스로 판단하지 못하는 기자가 신문 기사를 쓰고 있다는 사실에 나는정신이 아득해질 수밖에 없었다. - P204
|