자동 음성 인식…자막 편집 생성
영어·스페인어 등 다국어 확장
이르면 9월 오픈베타 서비스
OTT·온라인수업 활용 기대
인공지능(AI) 음성인식·번역 전문기업 엘솔루(옛 시스트란 인터내셔널)는 최근 AI 동영상 자동 자막번역·편집 서비스 '서브 에디터(가칭)' 기술 개발을 완료하고 오는 4분기 초 서비스를 시작한다고 20일 밝혔다.
'서브 에디터'는 자연어인 구어체 중심의 방송 콘텐츠에 특화된 자동 자막 번역·편집 생성기이다. 영상 속 음성(자연어)을 AI 알고리즘이 자동으로 인식하고 스스로 번역해 편집된 자막을 영상과 함께 제공한다.
엘솔루는 유튜브 등 국내외 다양한 OTT(Over The Top) 서비스를 비롯해 대규모 사용자를 대상으로 제공하는 온라인 공개 수업인 'MOOC(Massive Open Online Course)' 등 영상 중심 문화, 교육, 개인 콘텐츠 등에 서브 에디터가 적극 활용될 것으로 기대하고 있다.
엘솔루 관계자는 “AI가 동영상 속 음성을 인식하고 이를 자막으로 생성하는 것은 매우 복잡하고 높은 수준의 기술력이 요구된다”면서 “영상 장르에 대한 깊은 이해도는 물론, 다양한 사람들이 가진 발음, 억양, 강약에 대한 인식과 화자 분리, 배경 음악, 소음 등을 모두 구분해 분리 ·제거할 수 있어야 한다”고 말했다.
이 관계자는 “음성인식 후 생성된 텍스트와 번역된 자막은 영상 속 타임코드와 정확하게 동기화된 후 표시돼야 한다”면서 “OTT, MOOC 등 서비스 제공 플랫폼 가이드라인을 준수할 수 있도록 자막 길이와 위치, 포맷 등을 조정할 수 있어야 하고, 번역자막 또한 이용자를 중심으로 장르·문맥에 맞게 정확히 이해해 생성 돼야한다”고 덧붙였다.
영상 내 발화자로부터 각 장르별에 따라 정확히 음성을 인식해야만 정확한 번역 자막이 나올 수 있듯이 영상자막번역 서비스는 무엇보다 높은 수준 음성인식 기술과 자연어처리(NLP) 기술이 필요하다는 게 엘솔루의 설명이다. 회사는 빅데이터와 AI 기술을 융합해 음성인식, 기계번역, 자연어 처리 등 음성인식·번역 기술을 보유하고 있다. 특히 엘솔루의 한국어 음성인식률은 98% 수준으로 국내에서 가장 높은 정확성을 가진다
엘솔루는 빠르면 3분기말 9월부터 '서브 에디터'의 오픈베타 서비스를 론칭한다. 회사는 AI 음성인식·번역 기술을 토대로 한국어뿐만 아니라 영어, 스페인어 등 다국어로 확장해 글로벌 영상자막 서비스를 제공할 계획이다.
김우균 엘솔루 대표는 “정확한 음성인식 기술은 AI 콘택트센터(AICC) 외에도 영상 자막번역 분야에서 핵심 기술로 인정받고 있다”면서 “엘솔루의 '서브에디터'는 정확한 음성인식과 번역 품질을 제공하는 만큼 K-콘텐츠 산업 육성 뿐만 아니라 글로벌 영상 공급·제작자에게 새로운 비즈니스 기회를 제공할 것”으로 기대했다.
안수민기자 smahn@etnews.com