[핫테크] 고대 문자 자동해독 컴퓨터

Photo Image

저널리스트인 앤드류 로빈슨은 지난 2002년 그의 저서 ‘잃어버린 언어’에서 “성공적인 고고학적 해독은 논리와 직관의 조합을 필요로 한다”면서 “이는 컴퓨터가 해낼 수 없는 일”이라고 했다.

 과연 그럴까. 최근 여기에 도전장을 내민 기술이 등장했다. 미국 MIT 컴퓨터과학 인공지능연구소의 레지나 바질레이 교수팀은 최근 몇 시간만에 고대 셈족 계통 언어인 우가리트어를 해독할 수 있는 새로운 컴퓨터 시스템을 개발하고, 이달 스웨덴에서 열리는 컴퓨터언어연합의 연례 총회에서 관련 논문을 발표할 예정이다.

 우가리트어는 서기 2000년전 사용되던 설형문자로 고대 히브리어와 관련성이 깊다. 두 문자의 모양은 다르지만 음가와 의미가 유사해 고대 성경 연구에 전환점을 제공하기도 했다.

 이 컴퓨터 시스템은 우가리트어 등 8종에 달하는 고대 문자를 해독하는데 도움이 되는 정도에 그치지 않는다는 점에서 주목좵다. 현재 57개 언어만 소화하는 수준인 구글의 자동번역시스템을 수 천종에 달하는 현존 언어들로 확장할 수 있기 때문이다.

 연구팀은 컴퓨터의 취약점인 ‘직관력’을 보완하기 위해 몇가지 가정을 전제했다. 우선 해독 대상 언어는 다른 언어와 밀접하게 관련돼 있다는 점이다. 또 다른 전제는 한 언어의 알파벳을 다른 언어의 알파벳과 매핑하는데는 체계적인 방법이 있고, 상호 연관된 기호는 두 가지 언어에서 비슷한 주기로 나타난다는 점이다. 그 연장선으로 이 컴퓨터 시스템은 단어 단위에서도 비슷한 가정을 시도, 각 단어는 꿀사한 어원을 가지고 있다는 점을 전제로 했다.

 마지막으로 단어의 특정 부분들, 즉 어두나 어미에도 마찬가지의 매핑이 가능하다는 점을 가정했다.

 이런 가설들 아래 인공지능 연구에서 흔히 사용되는 개연론적 모델링 기법을 활용, 많게는 수 천번의 매핑 작업을 반복했다. 우가리트어와 히브리어 간 상호 매핑 확률치로 끌어 올리는데 도달했다.

 우가리트어는 이미 해독돼 있는 덕분에 연구팀이 개발한 시스템의 성능을 측정할 수 있었다. 우가리트 알파벳은 30개의 문자를 갖고 있는데, 이 시스템은 이 중 29개를 정확히 히브꺸 문자와 매핑시켰다. 또 두 언어에서 약 3분의 1 정도의 단어가 같은 어원인데, 이 중 60%를 판별해냈다.

서한기자 hseo@etnews.co.kr

브랜드 뉴스룸