오픈AI, 실시간 음성 AI모델 공개…“자연스러운 대화 행태 반영”

Photo Image
오픈AI 로고 (로이터 연합뉴스 자료사진)

오픈AI가 끊김없이 이용자의 음성을 인식하는 실시간 인공지능(AI) 모델을 선보였다.

오픈AI는 GPT-5급 추론 능력을 갖추고 실제 사람들의 자연스러운 대화 행태를 반영한 음성 모델 'GPT-리얼타임-2'를 7일(현지시간) 공개했다.

이 모델은 이용자와 AI가 번갈아 말해야 했던 기존의 AI 모델과 달리 이용자가 AI의 답변 내용을 중간에 끊고 말하거나, 앞서 말했던 내용을 중도에 고쳐 말해도 즉각 반응하도록 한 것이 특징이다. 또한 상황에 따라 말투를 조절할 수도 있고, 개발자가 빠른 답변이 필요한 업무와 신중한 답변이 필요한 업무 등에 맞춰 추론 수준을 선택할 수도 있도록 했다.

오픈AI는 음성을 실시간으로 번역해주는 모델 'GPT-리얼타임-트랜슬레이트'와 실시간 받아쓰기 모델인 'GPT-리얼타임-위스퍼'도 함께 선보였다.

오픈AI는 “실시간 음성 기술이 단순한 문답 수준을 넘어서서 대화 흐름에 따라 이용자의 말을 듣고 추론하며 번역하고 받아적으며 작업을 수행할 수 있도록 발전시키고 있다”고 개발 배경을 설명했다.

오픈AI가 이 같은 음성 모델을 개발한 것은 외부 기업들의 수요 외에 자체 AI 기기 준비에도 필요했기 때문으로 풀이된다. 오픈AI는 애플의 제품 디자인을 총괄했던 조니 아이브의 스타트업 'io'를 지난해 65억 달러에 인수한 이후 음성으로 조작할 수 있는 AI 기기를 준비 중이다.


강성전 기자 castlekang@etnews.com

브랜드 뉴스룸