<창간20주년특집>새로운20년-휴먼인터페이스(2)

 “키보드와 마우스를 버려라!”

 말로 하는 컴퓨팅 시대가 개막되고 있다. 인간과 기계간 커뮤니케이션, 즉 ‘휴먼-머신 인터페이스(HMI:Human-Machine Interface)’ 부문에서 다양한 시도가 이루어지고 있는 가운데 음성을 통해 인간과 컴퓨터 등 기계를 연결하고자 하는 ‘음성인식 기술’이 각광받고 있다.

 음성인식 기술은 보다 편리하고 인간적인 방식(휴먼 인터페이스)의 컴퓨팅 환경을 열어갈 것으로 전망되고 있다. 사람의 기본적인 의사소통 수단이던 ‘말(언어)’이 인터넷 등 컴퓨터 활용에 직접 접목될 가능성이 점차 높아지고 있는 것이다.

 인간과 기계간 의사소통의 최정점은 역시 말이다. 인간이 음성을 이용해 컴퓨터를 비롯한 각종 정보기기를 제어할 수 있게 되면 기계와 인간 사이를 가로막아온 이른바 ‘생물과 비생물간 원초적 장벽’을 좁힐 수 있게 돼 보다 인간에 친숙한 기계의 개발이 가능해질 것으로 예상된다. 인간의 사고를 각종 정보기기에 접목시킬 수 있게 된다는 말은 단순히 그동안 키보드나 마우스 등 물리적 장치가 맡아 온 입력기능을 인간의 음성이 대신할 수 있게 된다는 것에서 한발 더 나아가 정보기술(IT)사에 일대 변혁이 가능해진다는 의미다.

 컴퓨터를 사용하면서 불편한 점은 명령을 키보드나 마우스로 입력하는 것이다. 그래픽유저인터페이스(GUI)의 발달로 많이 개선되기는 했으나 사람간 대화에 비하면 마우스와 키보드 사용은 불편하기 그지없다. 음성인식 기술은 휴먼 인터페이스가 편리하고 자연스럽도록 개선시켜 줄 핵심기술 중 하나. 현재 이 기술은 음성구동 컴퓨터를 비롯해 무인전화번호 안내, 음성구동 주문형 비디오, 각종 음성안내시스템, 가전제품 등 이용영역이 광범위하다.

 실제 음성인식 기술의 활용분야는 매우 넓다. 이는 최근 들어 PC용 마이크로프로세서의 속도가 빨라지고 웹과 휴대전화가 보편화되고 있다는 데 기인한다. 지난 70년대 태동된 음성인식 기술은 최근 자연어 처리기술이 접목되면서 새로운 전기를 맞고 있는 것이다.

 바야흐로 음성인식 기술은 사람의 말이 무엇을 가리키는지 ‘인식’하는 수준에서 이제 뜻을 ‘이해’하고 ‘의도’를 분석하는 단계로 접어들고 있다. 학습·분석과정을 통해 말하는 이가 누구인지 구별할 수 있는 기술도 곧 선보일 전망이다. 인식하는 말의 경우 그동안 ‘낭독체’였다는 한계가 있었지만 앞으로는 자연스런 ‘대화체’가 수용될 것으로 기대되고 있다.

 현재 개발 중이거나 개발된 음성인식 솔루션들은 정보기술산업의 모든 분야와 접목을 시도하고 있다. 음성구동 컴퓨터를 비롯 메시징도구, 그룹웨어, 차량항법시스템, 자동번역시스템, 각종 정보단말기 등에 적용되고 있다.

 이에 부응해 국내를 비롯한 세계 정보통신 관련 연구소와 기업은 음성인식 기술개발에 박차를 가하는 한편 이를 이용한 응용분야 확대를 적극 추진하는 등 음성인식 기술을 통한 정보산업의 새로운 분야 창출을 서두르고 있다.

 그럼에도 불구하고 음성인식 기술의 보급이 아직 미흡한 이유는 크게 두 가지로 나눌 수 있다. 첫째, 기술이 실용화하기에 충분한 수준으로 발전하지 못했기 때문이다. 응용분야에 따라 차이가 있으나 음성인식을 실용 제품에 사용하려면 인식률이 95% 이상 돼야 한다. 그러나 사람이 자유롭게 말하는 것을 95% 이상 인식하는 것은 현재로서는 불가능하다. 둘째, 현재까지 개발된 기술을 실용시스템에 접목하는 기술이 부족하다는 점이다. 응용분야별 음성인식 요구사항이 무엇인지, 또 음성인식을 사용자 인터페이스로 사용할 때 어떤 방식을 사용해야 효과적인지 등의 연구가 미진하다.

 그러나 컴퓨터의 성능과 음성인식기술이 발전함에 따라 상황이 변하고 있다. 몇 년 안에 음성인식의 이용이 가속화돼 여러 분야의 휴먼 인터페이스에 적지않은 변화가 올 것으로 예견되고 있다. 말을 문자로 변환시켜주는 ‘음성타자기(딕테이션)’, 다시 말로 바꿔주는 ‘번역기’ 등도 시제품 단계에 이르렀다. 기반이 되는 연구개발(R&D) 방향은 음성인식, 신호처리 위주에서 대화처리와 언어모델 연구에 중점을 두는 쪽으로 전환되고 있다. 이에 따라 기술은 다국어 환경에서 말과 문자를 자연스럽게 상호 변환시키는 솔루션으로 통합되는 추세다. 이는 조만간 다국적 언어의 수용까지 가능해질 것으로 전망된다.  

 

 ■음성인식 기술 국내외 연구현황 ■

 음성인식 기술은 지난 70년대 미 국방부의 ‘아르파(ARPA)’ 프로젝트에 기원을 두고 있다. 국방부 주도로 ‘연속음성 인식기술’에 대한 연구가 본격적으로 진행됐다. 이 연구는 인식률 95%로 10만 단어를 연속적으로 인식하는 기술로 상용화되면 사람이 자연스럽게 얘기하는 대화체로도 각종 기기를 제어할 수 있게 된다. 이와 관련, 미국 벨연구소는 2986개의 전화번호를 대상으로 화자독립 인식실험을 수행해 90.9%의 인식률을 얻은 바 있으며 MIT공대에서는 자동차 분류 광고 데이터베이스에 접근해 정보를 제공해주는 대화시스템 ‘휠(WHEEL)’을 개발했다. 휠은 5000종의 자동차광고 데이터베이스를 음성으로 인식해 76.3%의 인식률을 얻는 데 성공했다.

 이후 유럽·일본을 중심으로 꾸준한 기술 개발이 이뤄졌는데 일본의 경우 국가적인 차원에서 ‘자동통역 전화’ 개발을 추진해 오고 있으며 지난 87년부터는 대화체 언어이해 및 소음환경에서의 음성인식에 관한 연구가 진행돼 결과물들이 속속 등장하고 있다. NTT에서는 음성인식 기술을 기반으로 비밀번호·거래은행·금액 등의 정보를 전화로 전송할 수 있는 홈뱅킹 시스템을 개발했으며 85%의 인식률을 얻는 등 상용화를 앞두고 있다. 또 도쿄공업대학은 문맥종속 음소 모델과 단어 트라이그램(trigram)을 이용한 연속음성인식 시스템 개발에 성공했다. 유럽에서는 83년부터 에스프리(ESPRIT) 프로젝트를 중심으로 화자특성 분석과 합성 등 40여개의 음성인식 기반기술 개발을 적극 추진하고 있으며 음성처리 알고리듬과 구조에 관한 연구 등도 함께 진행하고 있다.

 국내에서 음성기술에 대한 연구는 80년대 중반 이후부터 LG종합기술원·삼성종합기술원·한국전자통신연구원·KT·KAIST 등을 중심으로 이뤄졌다. 90년 후반부터 상용화된 제품이 출시됐고 시장의 수요가 증대하면서 99년 후반에는 벨기에 음성기술업체인 L&H코리아와 LG종합기술원 출신들의 보이스웨어가 설립됐다. 2000년에 들어서 서울대학교의 넷더스, KAIST의 보이스피아와 SL2, 강원대학교의 D&M테크놀로지, 삼성의 HCI랩 등 많은 음성기술업체들이 설립됐다.

 최근에는 세계적인 음성기술업체인 뉘앙스와 스피치웍스는 국내에 지사를 설립하면서 국내 음성기술시장의 본격적인 경쟁구도를 몰고 왔다. 또 음성기술을 받아 음성기술관련 사업을 하는 응용 애플리케이션을 개발하는 업체도 국내에 200여개가 설립돼 음성 시장을 달구고 있다.

 

■음성인식 기술 활용 분야 ■

 음성인식 기술은 ‘인간의 음성을 컴퓨터가 어떻게 알아들을 수 있도록 하는가’가 관건이다. 사람의 음성신호를 인식하는 기술은 크게 ‘음성인식’과 ‘화자(speaker)인식’으로 나뉜다. 또 음성인식 시스템은 특정 화자를 인식하는 ‘화자종속’ 시스템과 화자와는 상관없이 이뤄지는 ‘화자독립’ 시스템으로 나뉜다.

 가장 관심을 끄는 것은 음성인식 범위에 따른 분류로 특정 단어만을 인식하는 ‘독립음성인식’ 기술과 의미와 문맥 등을 동시에 파악하는 ‘연속음성 인식’ 기술이다. 현재 상용화된 음성인식 솔루션 중 대부분은 독립음성 인식기술 기반으로 만들어진 것으로 예를 들어 화자가 ‘엔터(enter)’라고 말하면 키보드의 엔터를 친 것과 같은 결과물을 보여주는 것이다. 그러나 전문가들은 진정한 의미의 음성인식기술은 의미와 문맥을 이해하는 것으로 이를 통하면 컴퓨터를 비롯한 각종 정보단말기에 지능적인 복합명령을 내릴 수 있게 된다고 말한다. 자료를 검색하고 이를 기반으로 특정 결과물만 취합해 보여주는 지능형 컴퓨팅이 가능해지는 것이다.

 음성인식 기술의 또 다른 핵심은 사람마다 틀린 음성의 차이를 정형화된 데이터로 가공하는 기술로 최근에는 주파수 대역별 에너지, 웨이블릿에 의한 특징 벡터 등이 주요 기술로 떠오르고 있으며 이들을 가능케 하는 기반기술로 벡터양자화, 패턴정합법, 신경망, 유전학 알고리듬 등의 기법들이 많이 사용되고 있다.

 이러한 음성인식은 현재 인터넷 등 무궁무진한 응용분야로 확대되는 추세다. 음성인식, 합성, 시스템 관련 세계 시장도 오는 2005년께면 120억달러에 이를 전망이다. 우선 주목할 분야는 음성포털 서비스다. 음성포털은 음성인식기술과 음성확장성표기언어(VXML:Voice eXtensible Markup Language) 처리기술을 결합함으로써 유무선 전화와 PC 기반의 인터넷 환경을 통합한 신개념의 서비스다. 현재 널리 쓰이는 증권정보 및 예약정보, 뉴스 등 각종 콘텐츠를 PC와 유무선 전화로 자유롭게 받아볼 수 있는 것이다. 특히 음성포털의 경우 향후 비즈니스 환경에서 콘텐츠 및 커머스, 커뮤니티를 ‘말’로 해결해 줄 수 있는 기반솔루션이라는 점에서 관심의 초점이 되고 있다.

 음성포털 외에 각종 자동화시스템 및 가정용 정보단말, 언어교육 등 음성인식기술의 활용분야는 현재의 예측을 뛰어넘을 전망이다. 현재 각광받고 있는 통합메시징(UMS)서비스는 당장 적용할 수 있는 분야다.

 하지만 무엇보다 음성인식 업계의 최대 관심사는 연 4000억달러에 이를 것으로 추산되는 임베디드 음성기술 시장에 있다. 텔레포니 기반의 음성기술시장은 기업고객 위주로 그 성장이 더딘 반면 임베디드칩시장은 일반고객들을 상대로 다양한 분야에 음성기술을 접목하면서 급성장하고 있기 때문이다.

 따라서 그 동안 서버 기반 음성기술시장을 주력으로 인식하던 업계는 임베디드 음성칩 분야를 음성인식 산업을 ‘제3의 물결’로 여기고 서둘러 뛰어들고 있다. 특히 소형의 제품에 다양한 음성인식기술을 접목하기 위해서는 칩이나 소프트웨어에 적용이 불가피하다. 이에 따라 가전제품·통신용 단말기·자동차·완구 등에 쉽게 음성인식기술을 적용할 수 있도록 임베디드 음성인식기술이 속속 개발되면서 음성인식기술시장의 기폭제 역할을 하고 있다.

  <허의원기자 ewheo@etnews.co.kr>


브랜드 뉴스룸