인공지능(AI) 번역 음성인식 기술 전문기업 엘솔루(옛 시스트란 인터내셔널)가 고려대학교 Speech and Language Processing Lab(이하 SLP)와 지난 7일 기술개발 계약을 체결하고, 고성능 한국어 화자인증 및 식별 시스템 개발에 나섰다.
엘솔루-고려대학교 SLP가 공동연구 개발할 고성능 한국어 음성인식 시스템은 기존 음성인식 모델의 인코더 분리 후 데이터 학습 및 소음 제거하는 자기 지도학습 알고리즘의 '생성형 사전 학습 모델', 등록된 목소리와 입력된 목소리 간 일치 여부를 자동 판별하는 화자 인증과 다자간 대화에서 화자 식별 가능한 고성능 한국어 '음성인식 화자분리 시스템'으로 구성된다.
최근 한국어 화자 인증 및 식별 시스템은 자동 회의록 시스템, AI 스피커, 사물인터넷(IoT), 만물인터넷(IoE), 금융 서비스, 공공기관 민원상담 등 다양한 산업에서 활발히 도입되고 있다. 현재 일부 금융권에선 빠른 고객 대응을 위해 고객 본인 여부 확인용으로 서비스를 제공중이나, 한국어 음성 인식률이 낮고 정확한 인증 및 식별의 어려움이 많아 서비스 확대에 한계가 있었다.
이번 엘솔루와 함께 고성능 한국어 화자 인증 및 식별 시스템을 개발할 SLP의 핵심 개발자는 고려대학교 인공지능학과 정교수이자 SLP 연구소장인 김찬우 교수다. 김찬우 교수는 구글, 마이크로소프트, 삼성전자 부사장 출신의 인공지능(AI) 음성처리 개발 분야의 글로벌 최고 전문가 중 한 명이다.
특히 김 교수는 구글의 AI 스피커 '구글 홈 개발 등 구글의 음성인식 시스템 개발에 참여해 왔으며, 삼성리서치 글로벌 AI센터에서 삼성의 AI 음성인식 플랫폼 '빅스비'와 삼성 갤럭시 AI 온디바이스, 삼성전자의 거대언어모델(LLM)인 삼성 가우스 AI(Samsung Gauss AI) 개발을 성공적으로 이끌어온 주인공이다.
본 프로젝트에 함께 참여하는 엘솔루 글로벌 최고기술책임자(CTO)인 이종혁 포항공대 명예교수는 포항공대 IT학부장 및 애플(Apple) R&D 센터장을 역임했으며, 국내 자연어처리(Natural Language Processing) 분야 최고 권위자다.
최고의 품질과 한국어에 최적화된 '화자 인증 및 식별 시스템'은 금융·공공기관에서 한국인 본인 인증과 다자간 회의록 서비스에 적극 도입될 것으로 기대된다. 또한, 20년 넘게 수집된 양질의 데이터와 다국어 언어처리 기술을 십분 활용하면 다국어 확장이 용이해 기존 시스템의 한계를 뛰어넘을 것으로 예상된다.
문종욱 엘솔루 대표는 “이번 계약을 통해 개발될 '고성능 한국어 화자인증 및 식별 시스템'은 기대 이상의 품질로 인공지능 컨택센터(AICC)의 업무 효율과 생산성을 극대화 시킬 것으로 예상된다”면서 “최근 사회에 큰 파장을 일으키고 있는 딥페이크, 딥보이스(얼굴 및 목소리 변조) 범죄를 예방하는데 큰 역할을 할 것으로 기대되며, 빠른 언어 확장을 통해 세계 화자 인증 및 식별 시장 또한 선도할 것”이라고 말했다.
김지선 기자 river@etnews.com