한국일보 7월 4일 금요일자 기사다. 한국적 AI의 모델별 특징과 장단점에 대해 논한 기사.

검색이 안되어 사진으로 첨부. 디지털 시대에도 종이신문을 읽는 이유는 바로 이렇게 검색에 잡히지 않는 정보를 얻기 위해서다.
최근 트럼프 관세협상이 큰 화제다. 최종적으로 일본, 유럽연합과 동일한 수준인 15%로 타결되었다. 상호무관세 협상인 FTA와 조율이 향후 쟁점이 될 것이다. 미국은 무관세이고 한국은 관세가 부과되지만 세계적으로 생각한다면 안 부과된다고 생각할 수도 있다.
그럼 한국은 미국과 같은 관세장벽 없이 무방비로 당해야하는가? 나는 사실 한국의 최대 관세장벽은 한글이라고 생각한다. 박해일이 분한 고뇌하는 이순신 영화 한산에서 보이는 높고 견고한 성과 같이 한반도와 한국어를 쓰는 사람들을 보호한다.
유럽어는 거칠게 말해 다 알파벳을 사용하고 비슷한 문화적 기원에 문법체계도 비슷해 넓은 범위의 사투리라고 볼 수 있다. 미국이 영어로 머신러닝, LLM, GPT,
오픈AI를 만들고 나면 이를 비슷한 계열의 유럽어들에 변환하고 적용하는 것은 공학적으로 어렵지 않다. 언어학 논문도 많다. 나아가 유럽연합의 다국어 정책 덕분에 반드시 문서를 여러 언어로 번역해야해서 학습할 소스도 많다.
물론 스트라스부르크처럼 프랑스어, 독일어를 자유롭게 구사하는 도시나 벨기에 네덜란드처럼 일상에서 자연스럽게 여러 언어를 접해 잘하는 인구가 많은 국가도 있지만 여전히 자국어만 사용하는 사람들도 있기 때문에 영어 AI를 도입해 사용할 수는 없고 자국어 AI로 바꾸어야한다. 영어권 입장에서 이는 다 시장이고 돈이다. 그리고 현실가능한 기능이다.
그런데 아예 언어체계가 다른 언어는 문제가 된다. 문자, 문법와 같은 언어적 요소에서 문화 등 사회적 맥락까지 모든 것이 다르다. 지시어도 일대일 대응이 안되는 경우도 많다. 그런 곳은 자체 에이아이를 개발해야만 한다.
언어권별로 자체AI를 개발해야한다는 뜻이다. 한 선구자가 나타나면 비슷한 계통의 언어는 모두 지배하게 된다. 식민지화 할 수 있다.
그렇게 언어권별로 나누어보면
알파벳(가장 큼. 유럽과 북미 뿐 아니라 아프리카와 라틴아메리카까지 포함)
키릴문자 러시아어(스탄, 몽골 포함)
중화권, 한자문화권
힌디어 인도(그러나 영어를 쓰는 추세로 보임)
아랍어권
이렇게 있다.
그리고 자기 문자 쓰는 장벽 높은 국가는 알아서 개발해야한다.
한국과 일본이 그렇다.
히브리어 쓰는 이스라엘도 그렇다.
이 국가들은 경제규모가 되어서 피지블한 옵션이다. 어느 누구도 도와주지 않고 쉽게 모델을 받아올 수 없기에 나름의 주권AI를 자체 개발해야만하는 입장이기도 하다.
문제는 아르메니아, 조지아, 스리랑카, 그리스 같은 경제 여력이 없고 인구가 내수를 떠받치기에 부족하면서 도시국가보다는 큰데 자국어 에이아이가 필요한 나라들이다.
그런 점에서 터키가 로마자를 택해서 신의 한 수를 둔 셈이라고 생각한다