오픈AI, AI 음성 대화 환경 쉽게 구축하는 개발자 도구 출시

발행일 : 2024-10-02 14:24 업데이트 : 2024-10-02 17:39

오픈AI가 애플리케이션(앱) 개발자들을 대상으로 인공지능(AI) 음성 대화 환경을 전보다 쉽고 빠르게 구축할 수 있는 도구를 출시했다.

1일(현지시간) 오픈AI는 자사 홈페이지를 통해 멀티모달 환경을 구축할 수 있도록 하는 '실시간(Realtime) 응용프로그래밍 인터페이스(API)'의 베타 버전을 공개했다.

이 도구를 이용하면 개발자가 여러 모델을 조합하는 과정을 거칠 필요 없이 단 한번의 API 조작으로 자연스러운 대화 환경을 구축할 수 있다고 회사 측은 설명했다.

이전까지 개발자가 이런 AI 음성 지원 환경을 만들려면 자동 음성 인식 모델을 이용해 음성을 텍스트로 변환한 뒤 이를 텍스트 추론 모델에 전달하고 그 추론 결과를 다시 텍스트-음성 변환 모델에 넣어 재생하는 방식을 써야 했다.

이런 번거로운 방식은 이용자가 AI 챗봇을 이용할 때 답을 얻기까지 대기 시간을 늘리고 답변에 섞인 감정이나 강조하는 악센트 등이 손실되는 측면이 있었다고 오픈AI는 전했다.

회사 측은 이번에 공개한 도구들이 고객 지원 상담이나 언어 학습 보조 기능 등을 강화하는 데 쓰일 수 있다고 설명했다.

오픈AI는 이날 GPT-4o에서 텍스트 외의 이미지까지 미세조정 할 수 있는 '비전 미세조정', 이전 대화를 재사용하는 데 필요한 '프롬프트 캐싱' 등 개발자를 위한 도구와 기능도 소개했다.

오픈AI의 주요 수익원이 자체 앱 개발에 첨단 AI 모델을 이용하려는 기업 고객인 만큼, 기업 고객을 유인하는 데 집중하는 것으로 분석된다.