하루키 번역을 앞선 구글 번역
2016년 겨울, <뉴욕 타임스>에 ‘위대한 인공지능, 깨어나다 The GreatA.I. Awakening‘¹ 라는 흥미로운 제목의 기사가 올라왔습니다. 이 기사는진정한 인공지능의 시대가 열렸다는 놀라운 내용을 담고 있었죠. - P251
6. 기계번역: 외국어를 몰라도 파파고만 있다면
1 https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html - P461
먼저《위대한 개츠비》에서 문장을 뽑아 무라카미 하루키村上 1949~가일본어로 번역한 문장과 구글이 번역한 문장의 품질을 비교했습니다. 무라카미 하루키의 번역에서는 하루키의 문체가 느껴졌습니다. 오히려 구글이 번역한 문장이 훨씬 더 직관적이고 이해하기가 쉬웠습니다. 불과 하루 전만 해도 구글의 영어-일본어 번역은 제대로 읽기도 어려울 정도로 엉망이었는데, 갑자기 번역 품질이 획기적으로 개선된 거죠. - P252
먼저 인간의 언어부터 살펴봅시다. 인간의 언어는 정말 어렵습니다. 여기에는 크게 3가지 이유를 들 수 있습니다.²
1. 역사와 유행에 따라 무작위로 생겨나는 규칙
먼저 규칙이 너무 많습니다. 인간의 언어를 몇 가지 규칙만으로설명하기란 사실상 불가능합니다. 왜냐하면 인간의 언어는 신조어가생겨나면서 계속 확장하기 때문이죠. 언어의 기원을 설명하는 이론도 너무 많아서 1866년 파리언어학회는 이 주제에 관한 토론을 아예금지시켜버릴 정도였습니다. - P252
2 닉 폴슨, 제임스 스콧, 《수학의 쓸모》, 노태복 옮김, 더퀘스트, 2020, 182쪽. - P461
‘케첩‘을 예로 들어보죠. 케첩이란 이름은 어느 나라에서 지었을까요? 영국 아니면 프랑스나독일에서 건너온 이름일까요? 아닙니다. 놀랍게도 이 이름은 중국에서 태어났습니다. 생선으로 만든 소스를 의미하는 ‘규즙‘의 중국어 발음이 ‘꿰짭‘이고, 이것이 영어권 나라로 넘어와 케첩이 된 것입니다. - P253
이처럼 사물의 이름은 일정한 패턴을 따라 생겨나지 않습니다. 전혀 예상치도 못한 나라나 언어에서 파생하기도 하죠. 역사와 유행에 따라서도 생겨납니다. - P253
2. 수많은 오류
모든 사람이 말을 문법에 맞게 하면 좋겠지만 사실 일상적인 대화에는 엄청나게 오류가 많습니다. 그럼에도 대화가 가능한 것은 우리의 뇌가 웬만한 오류를 보정하고 이해하기 때문입니다. - P254
3. 언어의 모호성
같은 발음을 지닌 단어가 여러 뜻을 갖는 경우가 있습니다. 우리말 중에는 대표적으로 ‘배‘가 있죠. ‘배가 크다‘라고 한다면 여기서 ‘배‘는 무엇을 의미할까요? ‘먹는 배‘ 일까요? ‘타는 배‘ 일까요? 단어만 봐서는 정확한 의미를 이해할 수 없습니다. - P254
I had a delicious breakfast with my best friend here.
이 문장을 예전의 번역기들은 이렇게 번역했습니다.
나는 맛있는 아침과 여기서 나의 최고의 친구와 가졌다.
단어를 하나씩 대입하면 틀린 부분 없이 번역된 듯 보이지만 문장 전체를 읽어보면 전혀 말이 되지 않는 문장이죠. - P255
기계번역의 시작
인간이 사용하는 언어를 컴퓨터를 사용해 다른 언어로 번역해내는 일을 기계번역 Machine Translation 이라고 합니다. ‘기계번역‘이라는 용어는 1949년부터 논문에 등장했고, 당시에도 큰 주목을 받았죠. - P257
규칙 기반, 모든 규칙을 정의하다
기계번역을 대표하는 회사로 1968년에 설립한 시스트란SYSTRAN이 있습니다. 이제는 50년이 훌쩍 넘는 역사를 자랑하는 이 회사는 헝가리 출신의 컴퓨터 과학자 피터 토마Peter Toma, 1924~ 박사가 설립했습니다. - P258
하지만 쉽게 예상할 수 있듯 규칙 기반에는 한계가 있습니다. 규칙을 아무리 세워도 언어의 무궁무진한 변화를 결코 따라갈 수 없기때문이죠. 앞서 살펴본 ‘had‘ 처럼 말이죠. 무려 30가지가 넘는 의미를 지닌 단어를 정확하게 번역하려면 얼마나 많은 경우의 수가 필요한지 짐작조차 할 수 없습니다. - P259
게다가 우리말은 대표적인 교착어로 용언 활용만 해도 무궁무진합니다. 이 모든 걸 규칙으로 처리하는 건, 정말 ‘캐어려운‘ 문제죠. 아예 규칙으로 처리할 수 없는 단어도 있습니다. 전체적인 맥락이나 상황에 따라 전혀 다른 의미로 번역되어야 하는 경우입니다. - P260
예시 기반과 통계 기반, 가능성을 보이다
1980년대에 들어오면서 연구자들은 새로운 시도를 해봅니다. 특히 국내총생산액이 세계 2위에 이를 정도로 급격히 성장한 일본은국제사회에서 활약하기 위해 영어-일본어 번역이 절실했죠. 교토대학교의 나가오 마코토尾, 1936~2021 교수는 예시 기반 기계번역Example-Based Machine Translation이라는 획기적인 방식을 제안하고, 이에 기반해 매우 성능 좋은 영어-일본어 번역 시스템을 만들어냅니다. - P261
1990년대에 들어서는 통계적인 방법을 접목한 통계 기반 기계번역Statistical Machine Translation이 등장해 더 나은 성능을 보입니다. - P262
|