[대한민국 희망프로젝트]<455>음성 비서

Photo Image
구글은 음성 비서 서비스 `구글 나우`를 통해 이용자가 요구하는 것뿐 아니라 알고 싶어하는 것까지 미리 예측해 제공하려 한다. <전자신문DB>

최근 페이스북이 음성 인식 기반 가상 비서 서비스 ‘M’을 준비하면서 음성비서 서비스가 화제가 되고 있습니다. 구글과 애플은 스마트폰에 음성비서 서비스를 탑재해 지속적으로 개선하고 있습니다. 안드로이드폰을 들고 있다면 “OK, 구글”이라고 불러 바로 이용할 수 있습니다. 음성비서가 무엇이기에 글로벌 IT기업이 관심을 쏟는 것일까요. 음성비서는 어떻게 사람 말을 알아듣고 대답하는 걸까요. 음성비서는 어떤 장점이 있나요? 늘 곁에 있지만 잘 몰랐던 음성비서를 알아보겠습니다.

Q:음성비서란 무엇인가요?

A:음성비서는 이용자가 목소리로 요구하면 습관과 행동 패턴을 학습해 맞춤형 서비스를 제공하는 가상 비서 서비스입니다. 주로 스마트폰 같은 기기에 탑재됩니다. 대표 서비스로 구글 ‘구글 나우’, 애플 ‘시리’ 등이 있습니다. 마이크로소프트도 ‘코타나’를 윈도 폰에 탑재했고 페이스북도 M 개발에 박차를 가하고 있습니다. 음성비서는 날씨, 교통, 일정 등을 알려주며 서비스에 따라 기능이나 용도는 조금씩 다릅니다. 구글은 검색과 사용자 예측, 애플은 iOS 기기 운용에 좀 더 중점을 두는 식입니다.

Q:음성비서는 어떻게 사람과 음성으로 의사소통이 가능할까요?

A:음성비서가 질문을 받고 자연스럽게 대답하기 위해 음성 인식과 음성 응답 기술이 필요합니다. 구글 나우를 예로 들어보겠습니다.

구글 나우 음성 인식 기술은 사용자 음성 중 의미 있는 소리만 골라내 발음기호로 인식하는 ‘음향모델’, 특정 소리가 어떤 단어와 일치하는지 찾는 ‘어휘모델’, 앞에 나온 단어에 맞춰 뒤에 나올 단어를 예측하는 ‘언어모델’로 진행됩니다.

음성 응답 기술은 음성 인식 기술에 쓰인 언어모델에 문자를 음성으로 자동 변환하는 기술인 TTS(Text to Speech)가 사용됩니다. 구글 나우는 TTS도 3단계로 진행합니다. 첫 번째는 문자 형태인 답변을 실제 읽는 방식으로 바꾸는 단계입니다. 예를 들어 ‘30.48cm’를 ‘삼공점사팔 씨엠’이 아닌 ‘삼십점사팔 센티미터’로 변환하는 것입니다. 그 뒤 각 어휘에 맞는 정확한 발음을 선택하는 단계, 문자를 음성으로 변환하는 단계를 거칩니다.

Q:음성비서는 어떤 장점이 있나요?

A:음성비서는 스마트기기 조작 방식인 터치의 한계를 보완해줍니다.

철자가 까다롭거나 긴 검색어를 간단하게 검색할 수 있습니다. 철자를 잘 모르는 검색어도 쉽게 검색할 수 있습니다.

손이 자유롭지 않거나 문자를 입력하기 어려운 상황에 유용합니다. 운전할 때, 양손에 짐이나 우산을 들었을 때, 장갑을 착용해 문자 입력이 힘들 때, 요리 중 손에 물기나 양념이 묻었을 때 등 다양한 경우에 적용 가능합니다.

노약자나 장애인에게도 도움이 됩니다. 문자 입력이 느리거나 시력이 좋지 않은 경우 음성으로 조작하면 편리하게 이용할 수 있습니다. 장애인도 목소리로 스마트폰 모든 기능을 이용할 수 있습니다.

Q:글로벌 IT기업은 왜 음성비서에 관심을 쏟을까요?

A:음성비서는 스마트 기기에서 중요성이 커지고 있습니다. 화면이 작은 스마트워치는 음성비서 서비스 활용도가 더 높아집니다. 시장조사 기관 가트너에 따르면 미국 소비자 중 38%가 스마트폰에서 음성비서 서비스를 이용한 경험이 있다고 응답했습니다. 2016년 말까지 선진국 소비자 약 66.7%가 매일 이 서비스를 이용할 것으로 전망했습니다.

음성비서는 사물인터넷(IoT) 시대 중요한 서비스가 될 것으로 분석됩니다. 모든 사물이 연결되면 모든 장소에서 음성만으로 제어가 가능해지기 때문입니다. 특히 집안 모든 생활을 목소리로 제어하는 스마트홈, 기계가 운전을 대신하는 자율주행 자동차 등은 음성비서 활용도가 높은 대표적 사례로 꼽힙니다.

주최:전자신문 후원:교육부·한국교육학술정보원

◇‘훤히 보이는 음성언어기술’ 김승희, 노윤형, 정호영, 허정 지음. 전자신문사 펴냄.

Photo Image
훤히 보이는 음성언어기술

이 책은 음성 언어 기술이 사람과 기계 사이의 자연스러운 인터페이스 기술이라고 본다. 사람과 사람 사이 언어 장벽도 해소하고 장소와 시간에 상관없이 다양한 정보를 제공해 이용자 편의성을 대폭 높인다고 주장한다.

기계가 어떻게 인간 언어를 알아듣는지 음성 인식 기술 핵심과 원리를 설명한다. 현실 속 음성 언어 기술을 보여주며 음성 인식 기술이 어디까지 발전했는지도 보여준다. 자동 통번역, 지식 마이닝 기술 등 음성 언어 기술 응용 분야와 가능성도 제시한다.

◇‘검색이 바꿀 미래를 검색하다’ 스테판 바이츠 지음. 이주만 번역. 코리아닷컴 펴냄.

Photo Image
검색이 바꿀 미래를 검색하다

스테판 바이츠는 마이크로소프트에서 검색 엔진을 개발하는 담당 이사다. 마이크로소프트 차세대 검색엔진 ‘빙’을 개발했다. 그는 검색이 앞으로 인간의 지적 영역인 합리적 추론까지 학습해 인간 마음을 읽고 ‘알고 싶어 할 정보’를 미리 제시하며 필요한 조치까지 취하는 완벽한 디지털 비서가 될 것이라고 주장한다. 검색이 세상 모든 정보에 실시간 접근할 수 있어 빅데이터, 다기능 웹, 사물인터넷, 웨어러블 디바이스 등과 결합해 새로운 가치를 만들어낸다는 것이다. 미래 검색이 제공할 디지털 유토피아와 이를 위해 풀어야 할 과제도 제시한다.


브랜드 뉴스룸