[대한민국 희망프로젝트]인공지능(AI) 번역

Photo Image
네이버 번역 앱 파파고<전자신문DB>
Photo Image
네이버 번역 앱 파파고<전자신문DB>

파파고, 구글 번역 많이 들어보셨죠. 인공지능(AI) 번역 서비스가 TV 광고까지 등장하며 화제입니다. 영어 숙제를 하거나 외국 친구와 소식 주고받는 데 활용한 경험이 한번쯤은 있을 겁니다. 이전 기계번역은 번역 품질이 낮아 속칭 '발 번역'으로 웃음거리가 되기도 했습니다. 하지만 지난해 말부터 대중 앞에 등장하기 시작한 새로운 번역 방식은 기존 기계번역 서비스가 가진 문제를 상당 부분 해소했습니다. 인공지능 방법론인 인공신경망 방식을 활용했기 때문입니다. 인공신경망 방식은 어떻게 번역 품질을 개선했까요. 우리가 이용할 수 있는 인공지능 번역 서비스에는 어떤 것이 있을까요. 번역 서비스가 발전하기 위한 과제는 무엇일까요.

Q: 기계번역은 어떻게 검색 품질이 개선됐을까요.

A: 기계번역 서비스가 인공신경망(NMT) 방식을 통해 번역 품질이 대폭 높아졌습니다. 지난해 말부터 네이버, 구글, 시스트란 등이 자사 번역 서비스에 앞다퉈 선보였습니다. 기계번역은 이전까지 어색한 번역으로 비웃음 대상이 되기도 했는데요. NMT 방식을 적용한 뒤 훨신 자연스러워졌다는 평가를 받았습니다.

NMT 방식은 문장 전체를 넣어서 번역합니다. 기계가 기존 번역 데이터를 스스로 학습, 최적의 가중치를 두는 방식을 훈련을 진행합니다. 번역해야 할 문장과 번역된 문장을 놓고 최적의 답을 찾는 중간값을 학습합니다.

업계에선 기존 통계기반번역(SMT) 방식보다 번역의 정확도가 2배가량 높다고 합니다. SMT 방식은 많은 사람이 번역할 때 사용한 데이터를 바탕으로 학습된 확률값에 따라 번역합다. 몇 개 단어가 합쳐진 구(Phrase) 단위로 번역합니다. 단위마다 번역해 조합해야 하기 때문에 문장 내연결이 어색합니다. 문장이 길어질수록 정확도가 떨어질 우려도 큽니다.

Q: 인공지능 번역에는 어떤 서비스가 있나요.

A: 네이버, 구글, 시스트란, 플리토 등 다양한 기업이 인공지능 번역 서비스를 제공하고 있습니다. 네이버는 지난해 통번역 앱 '파파고' 시범서비스를 시작했습니다. 에스페란토어로 '앵무새'라는 뜻인데요. 친근한 이미지를 내세우며 4개월 만에 다운로드 수 100만건을 넘어서는 등 인기를 끌었습니다. 지난해 10월 한국어 영어 간 번역, 12월 한국어 중국어 간 번역에 NMT 번역 방식을 처음 적용했습니다.

구글도 구글 번역에 NMT 방식을 적용했습니다. 2015년 9월부터 번역 서비스에 NMT 방식을 이식하기 시작했습니다. 지난해 11월부터 영어, 한국어, 중국어, 일본어 등을 포함한 16개 언어쌍을 지원하기 시작했습니다. 품질도 당연히 개선됐습니다. 구글브레인은 위키피디아, 뉴스매체에게 샘플 문장을 받아 평가한 결과 번역오류가 55%~85% 가량 줄었다고 발표하기도 했습니다. 특히 모든 언어간 교집합을 찾아내는 '제로샷(zero shot)' 번역 방식으로 정확도, 컴퓨팅 자원 등을 개선했습니다.

중국의 '네이버' 바이두도 NMT 기반 번역 서비스 '바이두 번역'을 제공하고 있습니다. 중국에서 가장 인기 있는 번역 서비스라고 합니다. 글로벌 인공지능 기계번역 업체 '시스트란'도 빼놓을 수 없습니다. 지난해 구글 번역, 파파고와 함께 번역 대결에 참가할 정도로 우수한 번역 품질을 자랑합니다.

Photo Image
플리토 인공지능 번역<전자신문DB>

Q: 어떤 곳에 활용되나요.

A: 인공지능 번역 기술이 아직까지 완벽한 수준은 아닙니다. 긴 문장, 시나 소설 같은 문학 작품, 고도로 전문적인 글 등을 번역하는 데 한계점을 드러냈습니다. 하지만 주변에서 쉽게 접하는 인공지능 번역 서비스 대부분 일상생활, 여행 등에서 간단한 회화를 상당한 수준으로 번역하는 수준으로 올라왔습니다. 향후 고도화가 진행될수록 학교생활부터 기업 업무까지 다양한 분야에서 편의를 제공할 예정입니다. 물론 아직까지는 영어 학습을 충실히 받아야 합니다.

Q: 신조어는 왜 번역이 제대로 안 되나요?

A: 인공지능이지만 만능은 아닙니다. 끊임 없이 생성되는 신조어를 바로 학습하기는 어렵습니다. 학습을 위해서는 데이터가 필요합니다. 하지만 데이터를 수집하는 것이 쉽지는 않습니다. 저작권이 걸려 있기 때문인데요. 구글이나 네이버 같은 포털은 참여번역 사이트를 운영, 이용자 동의를 받고 번역 데이터를 수집합니다.

국내 스타트업 플리토는 이용자가 원문을 올리면 인간 번역가가 금전을 받고 번역해주는 집단지성 기반 온라인 번역 플랫폼을 운영합니다. 이를 통해 수집한 데이터를 고도화를 위한 학습에 이용합니다. 이 회사도 최근에 인공신경망 기계번역(NMT)을 적용한 AI 번역 기능을 도입했습니다. 무료 번역 서비스를 원하는 이용자가 기계번역 서비스에 실망했을 때 즉시 인간 번역가에게 요청하면 됩니다. 이런 과정에서 신조어, 전문용어, 은어, 사투리 등 기계가 파악하기 어려운 번역 데이터를 끊임 없이 공급 받습니다.

주최:전자신문 후원:교육부 한국교육학술정보원


오대석기자 ods@etnews.com


브랜드 뉴스룸