인공지능(AI) 디바이스 & 서비스 트렌드, ‘멀티 모달리티’

Photo Image

“가까운 미래의 주요 인공지능(AI) 디바이스와 서비스는 최초의 음성인식 스피커와 본격적인 소셜 로봇의 중간 단계에 있는 아마존 쇼(Amazon Show)와 같은 여러 형태의 멀티모달 AI 디바이스(Multimodal AI Device)가 출시될 것으로 생각한다.”

박성준 미국 사바나예술대학(SCAD) 교수는 이달 19일 열리는 ‘인공지능 디바이스와 서비스를 위한 디자인 트렌드 및 실무 가이드’ 세미나를 앞두고 가진 인터뷰에서 멀티 모달리티(Multi Modailtiy)의 필요성에 대해 설명했다.

멀티 모달리티(Multi Modality)는 다양한 모드 또는 방식으로 해석 가능한데, 본래는 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 뜻한다. 모바일에서는 다양한 모바일 기기가 하나의 서버에 연결돼 기기를 바꿔도 하던 일을 계속할 수 있는 환경을 말하기도 한다.

박성준 교수는 “멀티모달 채널은 원래부터 사람 사이에 소통할때 사용하는 다양한 채널(음성, 얼굴 표현, 제스츄어)이기 때문에 AI 기술의 인식률과 신뢰성이 확보되고, 이를 활용한 유용한 서비스를 제공할 수 있다면 소비자는 환영할 것”이라고 전망했다.

박 교수는 멀티 모달리티에 관심을 가져야 하는 이유로 음성 인터랙션이 가지고 있는 한계 때문이라고 설명했다. 음성 답변은 휘발성(Transient)을 가지고 있어서 함축된 정보를 간단하게 전달하는 데는 좋으나 세밀한 고밀도 정보를 표현하는데 있어서는 화면 인터페이스에 대비해 떨어지기 때문이다. 또 다른 이유로는 인터랙션도 이슈인데 그래픽 유저 인터페이스(GUI)는 아이콘을 통한 행동 유도성을 활용해 사용자에게 정황과 맥락을 제공하며 기능사용을 도울 수 있다. 또한 음성 발화는 미세 제어(콘텐츠 재생 중 특정 위치로 이동 등)를 하는데도 어려움이 있어 멀티 모달리티가 주목받고 있다고 박 교수는 설명했다.

실제 최근 멀티 모달 제품도 나오고 있다. 아마존의 에코 쇼(Echo Show)‘가 바로 그것이다. 아마존은 2년 전 기존의 음성UX (VUX)는 거의 그대로 유지하되 화면과 카메라를 장착해 음성 인터랙션의 한계를 보완한 에코쇼를 출시했다. 최근에는 외관 및 기구 설계를 변경하고 스마트홈 허브를 통합한 두 번째 버전이 출시됐으며, 또한 침실 내 탁자에 둘 수 있는 2.5인치 크기의 에코 스팟(Echo Spot)도 출시됐다.

박성준 교수는 “가장 반응이 좋은 기능은 영상 통화(특히 드롭인 기능)와 동영상 보기이나 아마존은 디바이스 판매로 인한 매출보다는 현재의 비즈니스 모델을 촉진시킬 수 있는 또 다른 접점으로 활용하고 있다”고 설명했다. 아마존을 시작으로 구글도 홈 허브(Home Hub)를 출시했으며 국내에서도 SK텔레콤이 누구 네모(NUGU Nemo)를 출시한 것도 이런 트렌드를 보여주는 사례다.

박 교수는 인터뷰에서 가까운 미래에 나타날 멀티 모달 채널 서비스에 대한 두 가지 의견을 제시했다. 첫 번째 단기적으로 예상해볼 수 있는 것은 카메라를 활용한 인식이다. 현재 아마존 ‘에코 쇼’와 ‘에코 스팟’은 영상통화라는 서비스를 이유로 카메라를 장착하고 있다. 프라이버시 차원에서 침실에 카메라가 침투하는 일은 엄청난 일이다. 아마존은 중장기적으로 추후 얼굴 및 정황 인식과 같은 영상 인식 기반 시나리오를 선보일 것으로 예상해볼 수 있는 대목이다.

두 번째는 감정 인식인데 아마존의 감정 인식에 대한 기사와 논문, 아마존 리더와의 대화로 추측할 때 기술은 많이 올라와 있으나 얼마나 임팩트 있는 시나리오를 도출할 수 있는지가 관건이다. 박성준 교수는 “소프크뱅크 연구소를 방문해 확인한 것이기도 하지만 이 부분에 있어서는 세계 최초의 감정 로봇이라고 알려진 소프트뱅크 페퍼(Softbank Pepper)도 확실한 시나리오를 선보이지 못했다”고 설명했다.

박성준 교수는 “향후 트렌드를 예상하는 것은 AI 기술의 진보와 시장의 변화를 보는 것도 중요하지만  궁극적인 방향성에 대해서는 인간이 서로 간에 상호작용(Social Interaction)하는 근원적인 특징을 살펴보아야 한다”고 조언했다. 인간이 성장하면서 언어만 습득하는 것이 아니라 비언어적인 채널(얼굴 표정, 제스츄어 등)을 통해 상대의 의도 및 감정을 인식하고, 역으로 자신의 의도 및 감정을 표출하고 있다는 사실 때문이다.
 
한편 박성준 교수는 8월 19일 세미나에서 VUX 디자인 기초부터 응용, 음성 이후 소셜로봇을 포함한 멀티모달 설계까지 실무에 필요한 부분에 대해 강연한다. 그는 이번 교육에서 직접 음성 사용자인터페이스(UI) 설계 경험 등을 바탕으로 한 음성인터페이스 특징과 감성 경험 노하우를 공유할 예정이다.

한편 자세한 세미나 정보와 행사 참가는 전자신문인터넷 웹사이트(http://conference.etnews.com/conf_info.html?uid=118)를 통해 확인 할 수 있다.

 전자신문인터넷 유은정 기자 (judy6956@etnews.com)