<테마특강> 음성인식 기술 동향

구명완

◇78년 연세대 전자공학과 졸업

◇83년 한국과학기술원 전기전자공학과 대학원 졸업

◇92년 소프트웨어 연구소 선임연구원

◇98년∼현재 멀티미디어연구소 멀티미디어 기술개발팀 음성언어연구실 선임연구원

 음성인식기술은 음성언어를 컴퓨터가 알아들을 수 있도록 하는 기술을 말한다. 이는 음성을 문자로 변환시키는 미디어 변환기술이라고도 할 수 있다. 음성인식기술은 세계적으로도 이제 실용화를 서두르고 있는 최첨단 기술이며 각 나라에서 사용하는 말에 따라 연구 방향을 달리해야 하는 특징이 있다. 때문에 이 연구를 효율적으로 수행하기 위해서는 음성학자·언어학자·의학자 및 공학자들이 공동으로 연구목표를 설정해 작업을 하는 것이 바람직하다. 예를 들면 음성학자와 언어학자는 우리말의 음성학적 특징 및 문법·사용 습성에 대한 연구를 수행하고, 의학자들은 사람의 언어지각 능력에 대한 해부학적 접근 및 규명을 해 실제로 가능한 기술로 구현하는 것이 필요하다.

 현재 수백 단어의 말을 인식하는 기계만 실용화되어 있는 실정이지만 21세기에는 사람의 목소리를 알아듣는 컴퓨터가 최대의 히트 상품이 될 것으로 예측된다. 최근 외신에 따르면 10년 후의 최대 히트 상품 10선에 불치병을 치료하는 「유전학 약품」, 다음으로 인간의 음성을 인식, 인간이 요구하는 정보를 제공해 줄 수 있는 「휴먼 컴퓨터」를 선정하고 있다.

 음성인식기술의 최근 실용화 사례를 살펴보면 크게 통신사업자들을 위한 실용화 사례와 비통신사업자, 예를 들면 컴퓨터회사들의 실용화 사례로 나뉜다. 통신사업자들을 위한 실용화 사례는 주로 각 나라의 통신회사·국영연구소를 중심으로 연구가 진행되고 있다.

 미국에서 음성인식기술이 응용된 사례로는 AT&T 유니버설 카드 서비스(Universal Card Service)가 있다. 이 카드를 사용하는 사람은 전화를 걸어 음성으로 카드번호를 말하면 계좌 정보내역을 음성으로 들을 수 있다. 이 서비스시스템은 루슨트 테크놀로지스가 개발한 것으로 최근에는 16자리로 이루어진 카드번호뿐 아니라 상대방 전화번호도 자연스럽게 말을 하면 인식해 전화연결을 하는 서비스까지 구현되고 있다. 최근 AT&T는 「How may I help you」라는 서비스의 실용화 연구를 수행하고 있다. 이 서비스는 고객의 전화연결에 대한 다양한 음성을 인식해 정보를 알려주는 것이다. 사용되는 단어는 약1만 단어 정도가 된다고 한다. 또한 비행기 자동예약을 위한 연구도 수행하고 있다.

 벨코어는 콜매니저(CallManager)라는 전자서비스의 실용화 연구를 하고 있다. 이 서비스는 전화를 수신하는 사람이 부재중이라도 자동적으로 전화를 받아주고 미리 정해진 전화의 중요도에 따라 전화 내용을 관리한다. 부재중인 사람은 PDA 단말기를 통해 전화내용을 검색할 수 있다.

 유럽의 음성인식기술을 사용한 실용화 연구는 MIVA(Multilingual Interactive Voice Activated telephone services)라는 프로젝트를 중심으로 진행되고 있다. 이 과제의 목표는 다국어 음성인식기술을 이용한 서비스를 개발하고 실험하는 것으로 95년부터 진행되고 있다. 현재는 TASPM(Telephone Assistance Service for People on the Move)이라는 서비스를 6개국 언어(영어·독일어·이탈리아어·프랑스어·네덜란드어·포르투갈어)로 서비스하는 것을 목표로 연구하고 있다. 이 서비스는 여러 국가로 출장중인 사람에게 현지 전화를 사용하는 방식 및 긴급 전화번호 등을 6개국 언어로 설명해 주는 서비스다. 인식대상 단어는 65단어며 97년부터 시험 운용을 시작했다. 이 과제의 목표는 사용하고 있는 국가 혹은 언어가 다르더라도 동일한 과정을 거쳐 정보를 얻을 수 있도록 서비스 흐름을 표준화하고 실험하는 것과 국가별 교환망에 따른 음성인식 성능 측정하는 것이다.

 영국의 대표적인 음성인식기술 응용사례 중 하나가 콜마인더(Call Minder)라는 서비스다. 이 서비스는 95년 5월부터 시작, 현재 19개가 설치되어 있으며 50만명 이상의 고객을 확보하고 있다. 이 서비스는 전화 통화중에도 다른 전화가 걸려왔을 경우 자동적으로 전화를 받아서 메시지를 남겨놓을 수 있을 뿐 아니라 저장된 메시지를 들어보기 위해 음성명령을 사용할 수 있는 장점을 갖고 있다. 또한 전화를 기계가 자동적으로 받는 시점부터 음성명령으로 제어할 수 있는 장점을 가지고 있다. 영국의 통신회사인 브리티시텔레컴(BT)의 매슬레삼(Martlesham)연구소에서는 직원 4천명의 이름을 인식해 전화번호를 알려주는 서비스시스템이 운용중에 있다.

 프랑스에서도 영국의 콜마인더와 유사한 음성메일 서비스를 제공하여 주고 있으며 현재 7단어를 인식하는 수준에 있다. 음성인식기술은 CNET가 개발한 PHL90이라는 거절기능(Rejection)과 워드스포팅(Word Spotting)기술이 구현된 화자독립기술을 사용하고 있다. 대표적인 성공 사례로는 프랑스내 최대 자동차보험회사인 MASIF가 운용하고 있는 보험조회 및 신고 서비스다. 이 서비스는 30개 단어를 인식할 수 있고 24시간 운용되고 있다. 주로 차량도난신고 등 보험관련 내용을 안내해 준다. 현재 약 1백 회선이 설치돼 운용중이다.

 독일에서는 95년부터 페이저로 정보를 보낼 경우 음성인식기술을 사용하고 있다. 즉 숫자 혹은 제어명령을 목소리로 말하면 해당 페이저로 정보를 보낸다. 콜링 파트 페이즈(Calling Party Pays)라는 이 서비스는 현재 30만 가입자를 확보하고 있다.

 일본에서는 지난 82년 간단한 숫자를 인식할 수 있는 ANSWER시스템이 도입된 이후 음성인식 응용제품이 별로 없었으나 최근 몇년 전부터 고성능·저가격의 컴퓨터 등장 및 기술의 발달로 활성화되고 있다. 일본전신전화회사(NTT)는 새이름을 말하면 새소리를 들려주는 서비스를 개설했으며 NTT-DATA사는 전화를 걸어서 음성으로 돈을 자동이체할 수 있는 홈뱅킹서비스를 시험운용하고 있다. 또한 국제전신전화회사(KDD)는 사람의 이름을 말하면 구내 전화를 자동으로 다이얼링할 수 있는 서비스도 운용하고 있다. 일본 KDD는 음성인식기술을 이용해 장난국제전화 퇴치서비스 시스템까지 개발해 상용화하고 있다. 일본 교환원이 직접 응대해 주는 일본 직통전화서비스(Japan Direct Service)를 제공하고 있으나 특정 국가 어린이들의 장난전화가 심해 안내원의 업무를 방해받아 개발된 서비스다. 일본어를 모르는 사람은 입력을 못하므로 장난전화를 방지하는 것이다.

 통신망을 이용한 음성인식기술의 최종 목표는 현재 사용하고 있는 전화기 버튼 대신 음성으로 바꾸는 것이다. 특히 무선전화를 사용하는 경우 전화기 버튼보다는 음성으로 명령을 입력하는 것이 매우 편리하며 차량에서 자동운항장치에 명령을 내릴 경우에도 음성이 매우 유용하게 사용되고 있다. 음성인식기술의 응용 중 통신에 관련되지 않은 대표적인 응용 사례는 컴퓨터 분야다.

 SAPI 3.0은 지난 97년 4월 공개되어 현재 IBM·드래곤시스템(Dragon System)·L&H(Lernout & Hauspie) 등과 같이 음성인식 SW회사에서 채택, 사용하고 있다. 이 표준안의 장점은 사용자가 가격과 필요에 따라 음성인식 제품을 마음대로 선택할 수 있다는 것이다. 최근에는 SAPI 4.0이 베타버전으로 무료로 공개되고 있다. SAPI 4.0의 특징은 전화망응용 음성처리기능을 추가했으며 자바와 비주얼 베이식(Java & Visual Basic)을 사용해도 쉽게 음성처리 SW와 정합될 수 있는 장점이 있다.

 휘슬러의 음성인식기능은 PC 내 다양한 SW사용시 필요한 제어명령 등을 음성으로 할 수 있도록 연속 음성인식 엔진을 기본으로 하고 있으며 음성인식 워드프로세서도 가능하다. 특히 사용자와의 담화방식을 쉽게 제어할 수 있는 LEAP(Language Enable APplication)를 개발해 음성인식 응용시스템이 쉽게 개발되도록 하고 있다. 현재는 영어에 기반을 둔 SW를 개발하고 있으나 조만간 다국어가 가능한 음성처리 패키지를 개발할 예정으로 있다.

 국내 음성인식기술은 대학교와 연구소 등에서 주도하고 있다. 지난 95년 5월 16일 한국통신·한국전자통신연구원 및 일본 KDD가 공동연구를 통해 한·일간 자동통역 전화시스템을 시연했으며 한국통신은 자체 연구를 통해 올해 3월부터 700-3000에서 음성인식 증권정보서비스를 시험운용하고 있다. 특히 올 11월부터는 기업체 음성다이얼 시범서비스를 1577번을 통하여 개통했다. 1577을 누른 후 안내음성에 따라 인식대상 단어(예를 들어 「양천구청」)를 말하면 해당 구청으로 전화가 자동으로 걸리게 하는 서비스다. 현재는 주요관공서·언론사·금융기관·병원·극장·항공사 및 시범기업체 이름 등 3백40여개의 단어를 인식할 수 있다. 이 서비스가 활성화된다면 114안내 호의 절감과 새로운 서비스의 가능성을 동시에 만족시키게 될 것이다.

 지난 97년 12월 14일부터 18일까지 미국 샌타바버라에서 개최된 IEEE워크숍(IEEE Workshop On Automatic Speech Recognition and Understanding)기간 중 음성인식기술의 실용화 전망에 대한 전문가의 의견을 묻는 설문조사가 있었다. 이때 토의된 내용 중에서 음성인식의 성공적인 응용을 위한 가장 중요한 요소로는 가치(Value)가 있어야 한다는 것이다. 즉 음성인식 응용시스템의 이용에 따라 새로운 부(富)를 창조하거나 기존 방식을 사용하는 것에 비해 경제적이어야 한다는 것이다. 또 이 기술이 성공적으로 응용되기 위해서는 다음과 같이 세가지 요소가 결합돼야 한다고 한다. 첫째, 우수한 성능이다. 인식률이 높아야 서비스가 성공할 수 있다. 인식률이 떨어지면 사용자가 짜증을 내게 되고 그 결과 사용량이 감소되어 그 서비스 혹은 시스템은 실패하게 된다. 둘째, 제공이 쉬워야 한다. 인식시스템이 필요할 경우 빠른 시간에 경제적으로 필요한 분야의 응용시스템이 될 수 있어야 한다. 셋째, 문화적 조건이 맞아야 한다. 음성인식기술이 도입됨에 따라 기존의 사람 응답 대신 기계가 응답함에 따라 사용자들의 불편이 예상되는데 이를 최소화하기 위해서는 좀 더 지능화된 맨머신 정합기술이 필요하다. 또한 음성인식기술 응용제품에 대한 문화적인 거부현상도 없어야 한다.

 설문서 중 2000년에 미국 국민의 50% 이상이 음성인식 응용사례로 자연스럽게 생각할 수 있는 분야가 어느 것인가 하는 질문에 대부분의 사람이 두가지를 선택했다. 첫째는 전화망 응용사례로 음성인식 전화정보서비스를 들었다는 것이다. 현재 미국에서는 음성인식기술을 이용한 이런 서비스가 증가하고 있으며 2000년도에는 이 분야 시장이 약 10억 달러에 이른다고 한다. 두번째는 컴퓨터를 위한 음성 타이프라이터(Typewriter)다. 현재 미국에서는 IBM·MS를 중심으로 음성 타이프라이터 소프트웨어가 개발, 판매되고 있으나 2000년도에는 매우 활성화될 것으로 추정된다.

 설문서 중 재미있었던 것은 과연 인간과 구분될 수 없을 정도의 음성인식기술이 개발되는 시점이 언제인가 라는 질문에 많은 연구원들이 불가능하다고 응답했으며 음성인식기술의 연구가 언제쯤 종료될 것인가라는 질문에도 유사한 결과가 나왔다. 이 말은 현재의 기술로는 미래를 예측하기에 한계가 있다는 것이며 새로운 패러다임이 정립돼야 할 필요성이 있다는 것이다. 사실 인간이 인간보다 더 잘 음성을 알아듣는 기계를 만든다는 것은 현재 기술로는 불가능하기 때문에 신은 인간의 도전에 대해 아직까지는 걱정을 할 필요가 없을 것 같다.


브랜드 뉴스룸