“AI는 여러 분야에서 사람 능력을 넘어서는 수준으로 구현되고 있습니다. 특히 청각지능 분야 발전으로 사람과 비슷한 수준으로 언어를 이해할 수 있게 됐습니다.”
김홍국 GIST 교수는 “최근 음성 인식 분야에도 딥러닝이 적용되면서 사람에 의존하지 않고 데이터에 기반한 학습을 통해 스스로 음성 및 텍스트를 이해하는 방식으로 전환되고 있다”면서 “주로 스마트 기기 위주로 형성된 음성인식 시장은 재난안전, 의료·법률서비스, 물류, 자동차, 교육 등 산업으로 급성장할 것으로 예상된다”고 말했다.
김 교수는 “음성인식 기술은 사람이 기계와 대화하는 작업에 필요한 모든 것을 아우르는 개념이 됐다”면서 “향후 사람과 다양한 방식으로 교류하며, 음성인식 텍스트화를 통한 의도파악 및 음성으로부터 사용자 감정까지 인지해 도우미 역할을 할 수 있는 디지털 동반자 기술로 발전하고 있다”고 설명했다.
김 교수는 음성인식 분야 전문가로서 멀티미디어 및 음성·오디오 신호 처리, 3차원 오디오 분야 전반에 걸친 연구를 수행하고 있다. 음성 및 오디오 코딩 분야에서 국제표준화와 관련된 기술을 개발하고 음성인식 분야에서는 잡음 및 통신채널, 화자 변이성에 견고한 음성인식, 대용량 대화체 음성 인식, 무선통신환경에서 단말·서버·단말-서버 혼용기반 방식 등 인식시스템에 관한 연구도 수행했다.
또 실감형 오디오 콘텐츠를 위한 실감오디오 취득, 전송, 재생을 비롯해 멀티모달 환경 구현을 위한 영상, 음성, 실감오디오 및 음성인식 통합기술을 개발하고 있다.
그는 “사람이 로봇 혹은 스마트 기기와 대화를 나누는 과정을 생각해보면 음성인식 기술이 어떻게 구성되는지 이해할 수 있다”면서 “사람이 기계와 실제 교류를 나누는 대화가 가능해지려면 대화 상태 추적, 대화관리 기술 체계적 연구가 필요하다”고 말했다.
이어 “음성인식 분야 AI 연구는 오래 전부터 진행되어 왔지만 아직까지 자유로운 대화가 가능할 수준까지는 구현되지 못하고 있다”면서 “하지만 음성인식 분야도 딥러닝 덕분에 정확도가 크게 향상됐고 수많은 기업이 음성인식 기술을 탑재한 제품을 쏟아내고 있다”고 덧붙였다.
김 교수는 오디오 인식에서도 음성인식 기술이 여전히 가장 큰 부분을 차지하고 있다면서 AI 개발 관점에서 보면 비언어적 소리를 인식하는 것은 만만치 않은 도전이자 거대한 기회라고 생각한다고 강조했다.
김 교수는 “오디오 AI를 구현하기 위해서는 딥러닝 기술뿐만 아니라 다양한 머신러닝 기법, 고도화된 신호처리 기술, 여기에 많은 오디오 데이터를 필요로 한다”면서 “수많은 소리에 담긴 의미를 사람처럼 컴퓨터가 파악할 수 있는 AI 서비스 구현에 적극 노력하겠다”고 말했다.
광주=김한식기자 hskim@etnews.com