첨단 컴퓨터의 세계

최근 들어 컴퓨터 기술의 발달과 더불어 인간과 기계사이의 통신 수단으로서 의 음성의 중요성이 대두되고 있다. 특히 손을 사용하지 않고 음성에 의해 기계를 조작 하거나 키보드 없이도 입력할 수 있는 음성컴퓨터 등의 개발이 요구되고 있다.

음성인식이란마이크로폰과 같은 컴퓨터입력장치를 통하여 음성을 입력 받은후 그것을 텍스트로 바꾸는 작업인데 이 작업은 곧 음성신호를 판독하여 문자로 표현하는 것이다. 음성인식의 궁극적인 목표는 어떠한 상황에서도 인간 의 음성을 정확하게 인식할 수 있는 시스템의 구현이라고 볼 수 있는데 화자 의 성별, 나이, 억양, 말하는 속도, 주위의 잡음상태 등 많은 변수들이 복합 적으로 작용하기 때문에 범용시스템의 구현은 상당히 어려운 것으로 여겨지고 있다.

이간의말을 인식하기 위한 음성인식시스템은 방대한 패턴분류작업을 필요로 한다. 음성인식에 대한 연구는 지난 30여년이나 진행되었으나 현재 가장 좋다고 여겨지는 상업적인 음성인식시스템의 인식성능조차도 어린아이 수준이 하인 것이다. 주된 이유로는 음성신호가 엄청나게 복잡하기 때문이다.

일반적인관점에서 인간은 몇가지 형태의 단서를 통하여 음성을 인식한다.

가장유력한 단서는 청각이지만 시각과 문맥상의 이해등 부가적인 정보도 많이 이용된다. 청각신호들중에서 주된 것은 음성파형 주파수와 그 주파수의 시간에 따른 변화다. 그러므로 가장 간단한 형태의 말은 시간과 주파수라는 두가지 기초적인 면을 포함하는 통계적 처리과정으로 볼 수 있다. 음성 인식 에서의 복잡성은 주어진 발성이 무한개의 주파수패턴으로 나타날 수 있다는사실에 있다.

음성인식기술의연구개발에서 고려되어야 할 요소들은 다음과 같다.

첫째,말하는 상대에 대한 구분인데 특정화자와 불특정화자로 구분된다. 특정화자는 통상 화자종속이라고도 부르는데 몇몇의 특정한 화자가 발음한 것들만을 인식할 수 있는 것을 말한다. 그렇지 않고 화자의 제한이 전혀 없는경우를 화자종속이라고 하는데 이것의 구현은 고도의 기술을 요하는 일로서 현재로서는 매우 어려운 기술이다.

둘째,음성인식은 말하는 속도에 의해 좌우되기도 한다. 정해진 범위내에서 의 음절과 단어, 단어와 단어사이의 간격이 미리 정해진 경우에는 보다 정확 한 음성인식이 가능하다.

셋째,음성인식은 주위 환경의 지배를 받는다. 주위잡음의 여부와 말하는 사람이 단 한 사람인지 또는 음성신호가 충분히 강한지 등의 변수에 영향을 받는다. 넷째, 실세계에 대한 지식과 확장성이다. 어떤 영역에 대한 말인지를 사전에 알고 있을 경우에는 불완전한 발음이나 명확하지 않은 문맥에 대해서도 효과 적으로 대처할 수 있다. 그외 음성인식을 좌우하는 요소들로는 말의 연속성 , 변이 등이 있다.

지금의음성인식기술 수준은 특정화자의 수백단어내에서의 제한된 단어에 대한 실용화가 이루어지고 있으며 상업적인 응용가치가 큰 불특정화자에 대한 음성인식수준은 아직도 상당히 낮은 편이다.

일본NTT의 추정에 따르면 인식되는 단어의 개수에 따른 음성인식 기술의 발전예측은 대략 다음과 같다. 1995년에는 특정화자에 대해 1천단어 정도, 3천개의 문장, 5백어정도를 사용하는 수준의 회화가 인식될 전망이고 불특정 화자에 대해서는 1천단어와 수십단어수준의 문장이 인식될 수 있을 것으로추정하였다 . 서기 2005년경에는 특정화자에 대해서는 수만 어가 인식되고 2천내지 5천단어 준의 회화도 인식될 것이라 한다.

그러나불특정화자의 경우에는 수만단어가 인식되지만 회화에 있어서는 5백 단어정도가 자유롭게 인식될 것이라는 전망이다.

이러한전망을 고려할 때 아직까지도 문장과 회화에서의 인식수준은 실용화 와 상당한 거리감이 있으나 21세기초에는 신경망기술의 발달, 음향처리 기술 향상등의 영향으로 음성을 통한 기계와의 대화가 이루어질 것으로 기대 된다

브랜드 뉴스룸