
“나 외출해.”삼성과 LG전자의 최신 가전은 사용자가 이렇게 말하면 인공지능(AI)이 알아서 조명을 끄고 로봇청소기를 돌린다.
“환자 의료 기록을 생성해줘.” 누앙스(Nuance)의 '드래곤 앰비언트 익스피리언스(DAX)'는 의사와 환자의 대화를 경청해 의료기록을 자동으로 생성해준다. 특별히 요청하지 않아도 의료진과 환자의 실제 대화를 이해해서 요약해 주는 '상황 인지형(Ambient) AI'다.
# 음성 AI, 차세대 인터페이스가 되다
단순히 질문에 답하고 음악을 틀어주던 '말하는 기계'가 인간의 감정을 파악하고, 복잡한 비즈니스 프로세스까지 구현해 주는 '보이스 에이전트(Voice Agent)'로 진화하고 있다.
텍스트를 거치지 않고 음성을 직접 이해하고 생성하는 '네이티브 멀티모달(Native Multimodal)' 기술이 음성 AI를 혁신하고 있기 때문이다. 인월드 AI의 모델은 지연 시간을 0.1초대로 줄였고, 엔비디아는 사용자가 말하는 도중 끼어들어도 자연스럽게 반응하는 전이중(Full-duplex) 통신을 구현했다. 이 결과 목소리가 차세대 인터페이스로 부상하고 있다.
지난달 애플은 차세대 시리(Siri) 고도화를 위해 구글과 '보이스 AI 동맹'을 체결해 주목을 받았다. 이는 음성 AI가 곧 커머스, 광고, 구독, 서비스 유통의 핵심 인터페이스가 될 신호탄이기 때문이다.
#음성 AI, '질문 도구'가 아니라 '실행 엔진'이 되다
“양파 빼고 치즈 추가한 햄버거 1개 포장해 줘.” 미국의 패스트푸드 체인 웬디스는 음성주문 AI '프레시 AI(Fresh AI)'가 주문을 받는다. 드라이브스루 스피커 앞에서 고객이 원하는 메뉴와 옵션을 말하면 주문 내용을 메뉴보드에 표시해주고 이를 확인하면 주방으로 전송해준다.
“방금 회의 핵심 쟁점 5개로 요약해줘.” 마이크로소프트는 코파일럿(Copilot) 음성 기능을 통해 회의, 이메일, 문서 내용을 요약해달라고 구두로 요청할 수 있다. “가까운 고급 레스토랑 찾아줘” “평점 높은 메뉴가 뭐야?” 메르세데스-벤츠는 차량 내 음성 시스템에 생성형 AI를 통합했다. 이는 단순 편의 기능이 아니라, 차량이 '음성 기반 서비스 플랫폼'으로 진화한다는 의미다. 길 안내를 넘어 예약·결제·구독까지 음성으로 이뤄진다.
스웨덴 핀테크 기업 클라르나(Klarna)는 '음성 AI 에이전트'를 도입해 실제 고객 전화의 2/3 이상(약 230만건)을 처리하고 있다.
이처럼 음성 AI가 아스(AaaS:Agent-as-a-Service)로 변신 중이다.
아마존의 생성형 AI 기반 '알렉사 플러스(Alexa+)'는 말만 하면 식료품 주문, 레시피 제안, 식사 장소 예약, 여행 일정 계획, 스마트홈 기기 제어 등 다양한 작업을 수행한다.
AI 금융 상담사는 복잡한 상품 설명까지 하며 계약까지 음성으로 진행해준다. 식당 예약, AS 접수 등을 AI 음성 에이전트가 완벽히 대체하며 인건비를 획기적으로 줄여주고 있다.
음성 AI는 고객의 목소리 톤과 억양, 사용하는 단어를 분석해 선호도를 파악하고 맞춤형 제품을 추천하는 '보이스 커머스'까지 활성화하고 있다. 스타벅스는 알리바바와 협력해 스마트 스피커 '티몰지니'를 통해 음성만으로 커피를 주문하고 30분 내 배달받는 서비스를 선보였다. 아마존은 주유소에서 “알렉사, 주유비 결제해줘”라는 말 한마디로 결제까지 끝내는 시스템을 구축했다원어민과 대화하듯 선생님 역할을 하는 AI 튜터, 유명 연예인 등 원하는 목소리로 책을 읽어주는 오디오북 등 콘텐츠 산업도 바꾸고 있다.
# 음성AI, 비즈니스 구조를 뒤집다
음성 AI는 더 이상 '말하는 기계'가 아니다. 돈이 흐르는 길목을 재설계하는 인터페이스가 되고 있다. 애플과 구글의 협력은, 음성 AI가 다음 플랫폼 전쟁의 핵심이라는 사실을 보여준다. 이제 기업은 “우리 제품이 얼마나 똑똑한가”를 넘어 “우리 제품이 고객과 어떻게 대화하고 어떤 문제를 목소리로 즉시 해결해 주는가”를 고민해야 한다.
최은수 인텔리빅스 대표·aSSIST 석학교수·CES2025·2026 혁신상 심사위원


















