[e테크]음성인식기술-기술의 응용과 미래

 음성인식 기술은 이미 성능이 뛰어난 저가 시스템으로 구현돼 현재 다양한 업무에 활용되기 시작했다. 즉 단독 또는 화자인증 기술과 조합된 음성인식 기술이 원격 데이터 등록, 중앙 데이터베이스 원격 접속, 서비스 접속, 이동전화 단말기나 PDA같은 휴대 장비의 데이터처리 등의 애플리케이션에 응용되고 있다.

 음성인식과 자연어 프로세싱 기술이 조합된 구어체시스템은 사용자들이 정보검색 작업을 위해 음성명령으로 데이터베이스를 조회할 수 있도록 해준다. 그러나 화자를 가리지 않는 높은 정확성과 많은 어휘를 갖춘 연속언어시스템은 여전히 비행일정 정보조회를 위한 시스템과 같은 특정영역에 일부 적용될 뿐이다.

 구어체시스템은 막대한 하드웨어시스템을 요하기 때문에 가격이 비싸지만 컴퓨터의 가격대 성능비 개선으로 앞으로 몇년간 상용화가 더욱 가속화될 전망이다. 특히 점차 강력해지는 데스크톱 시스템은 주변 잡음, 음향학상으로 비슷한 단어 구분, 화자의 변화 등과 같은 기술적인 난제를 해결해줄 것으로 기대된다.

 무엇보다 중요한 것은 음성인식의 미래는 이를 얼마나 유용하게 설계하느냐가 관건이 될 것으로 보인다.

 

 ◇음성인식의 응용

 음성기반 인터페이스는 컴퓨터가 없는 사람을 비롯해 각계각층의 소비자가 컴퓨터화된 서비스를 동적이며 부가가치가 높은 정보에 접근할 수 있도록 해준다.

 특히 글로벌 정보인프라에 음성인식과 자연어 프로세싱 기술이 조합돼 구현되면 이 인프라의 이용자는 전화를 걸어 자국의 언어로 된 데이터베이스와 정보를 검색할 수 있게 된다. 모바일 애플리케이션도 음성인식과 어울리는 분야다. 음성 인터페이스는 키보드나 펜 인터페이스보다 사용하기 쉽고 안전하기 때문에 이동전화 단말기, 차량 자동항법시스템, PDA 등과 같은 다양한 휴대형 장비에 적합하다.

 또 원격 정보를 액세스할 때에도 메뉴구동 방식의 인터페이스보다는 양방향 음성 응답시스템이 편리하다. 즉 음성인식 인터페이스를 채택한 원격시스템은 사용자가 전화로 데이터베이스를 호출하고 음성명령으로 메시지 검색, 다른 사용자 연결, 전화응답 정리 등을 처리할 수 있다.

 

 ◇음성인식의 장점

 음성인식은 음성의 음성학적인 패턴을 단어로 변환하는 과정이다. 사용자의 음성은 마이크로폰으로 들어가 전기적인 아날로그 음성신호로 바뀌며 음성이 아닌 과도전류 등과 같은 왜곡이 제거된다. 이후 음성신호는 범위별 정보로 필터링되어 특정발음을 대표하는 템플릿으로 조합된다. 템플릿의 특징간 시간배합을 최적화하는 데는 동적인 시간왜곡 루틴이 사용된다.

 음성인식시스템은 전통적인 인터페이스에 비해 다양한 장점을 제공한다.

 △ 음성인식은 시스템 조작자가 손을 분주히 사용할 여력이 없다든가 이동성이 중요할 때는 필수다. 복잡한 계기판으로 가득차고 정교한 통제와 끊임없는 주의가 필요한 비행기 조종실과 품질제어 검사라인 등이 이에 해당한다.

 △ 전화 또는 휴대형 컴퓨터로 원격에서 데이터 입출력을 해야 하는 상황에서 효율성을 높여준다.

 △ 대부분의 경우 음성인식시스템은 중간 작업자를 필요로 하지 않는다. 따라서 비용을 줄일 수 있다.

 △ 인간과 컴퓨터간의 상호작용의 편의를 증가시켜준다. 자연어 처리기술의 발전으로 컴퓨터화된 전문가시스템과의 언어적인 상호작용과 의사결정, 기획지원 등이 가능하다.

 

 ◇음성인식 기술

 △화자 종속·적응·독립 시스템

 일부 상용 음성인식기는 사전에 인식된 사용자의 말에서 만들어진 맞춤 단어 템플릿에 의해 운영되며 이를 화자종속 인식이라 한다. 일부 인식기의 경우 각 단어의 템플릿 묶음이 개발자에 의해 미리 만들어진다. 템플릿 맞춤 접근법은 단어보다 적은 음성지식을 인식 프로세스에 통합시킨 하부단어(subword) 컴포넌트에 기반을 둔다.

 이와 대조적으로 대부분의 고급 음성인식 시스템의 연구는 보통 음성지식을 인식 프로세스에 통합시키고 하부단어 수준에서 음성인식에 집중된다.

 불행하게도 일반적인 소리가 나는 단어의 음성학적 징후는 주변 단어, 구에서 단어의 위치, 화자의 의도 등에 의존한다. 하부단어는 이 변화를 표준 방법으로 통합하기 때문에 문맥상의 변화에도 불구하고 잘못된 인식이 발생할 수 있다.

 또 다른 접근법인 화자적응 인식은 사용자가 시스템이 하부단어 유닛을 추출하도록 문장을 읽어주도록 하는 것이다. 이같은 시스템은 또한 사용자와의 상호작용을 통해 학습한다. 이같은 접근이 화자적응 인식이다.

 

 △고립된, 연결된, 지속되는 음성

 템플릿 맞춤은 사용자가 각 단어를 띄어서 단어별로 말하면 쉽다. 단어간의 경계가 명확하도록 단어 사이의 무언의 기간이 길수록 더욱 쉽다. 이를 이용하는 것이 고립단어 인식이다.

 패턴 맞춤의 중요한 단계는 상응하는 템플릿을 정렬하는 것이며 여기에서 타이밍이 가장 유동적인 요소다. 따라서 템플릿 시간 정렬은 음성인식에서 일반적으로 사용된다. 또 동적인 시간왜곡 기술도 종종 사용된다.

 연결음성 인식은 고립된 단어인식에 사용되는 단어 템플릿 맞춤 접근을 변형한 것이다. 이 접근법은 일련의 단어를 시스템에 불러줄 수 있으며 동적인 시간 왜곡은 그룹뿐만 아니라 개별 단어에도 적용된다. 일련의 단어는 고립된 단어의 결부처럼 처리된다. 그러나 단어는 문맥에 따라 변한다는 것이 문제다.

 지속음성 인식은 연결음성 인식과 접근 및 의도 모든 면에서 차이를 보인다. 음성을 단어의 묶음보다는 연속으로 인식하기 위해 하부단어 유닛과 이를 지속되는 음성에서 실현하는 데 초점을 맞추고 있다. 이 기술도 이미 상용화 단계에 접어들었다.

 

 △어휘의 제한

 다음의 세가지 주요 요소가 음성인식 시스템의 어휘를 제한한다.

 * 어휘를 탐색하는 데 필요한 계산

 * 음성학적으로 비슷한 단어 처리

 * 화자의 변화 계산

 특별한 하드웨어와 병렬 프로세싱 기술은 약 5000개 단어의 대규모 어휘를 처리할 수 있도록 해준다. 그러나 문제는 어떻게 비슷한 소리가 나는 단어를 처리하느냐다. 일상 어휘를 다루다보면 음성학적으로 비슷한 단어를 만나는 것은 피할 수 없다. ‘a’ ‘and’ ‘the’와 같이 자주 사용되는 많은 단어는 종종 거의 강세가 없이 사용된다. 따라서 음성학적 모호함을 해결하기 위해 문맥을 사용하는 것은 중요하다.

 개별단어간의 음성변화도 어휘와 함께 중요한 문제다. 사용자가 시스템 사용에 앞서 수천개의 단어를 말해주는 것은 너무 부담스럽다.

 

 ◇음성인식의 미래

 미래의 음성인식 시스템은 문맥상의 정보(언어의 모델과 함께), 즉 인간이 음성을 이해할 때 사용하는 것과 같은 종류의 정보에 의존하게 될 것이다. 이를 구현한 시스템은 서로 다른 단어와의 관계 추론을 통해 개별 단어의 모호함을 해결한다. 그러나 이같은 시스템은 아직까지 상용화에 어려움을 겪고 있다. 특히 많은 규칙을 갖고 있는 언어모델의 경우 더욱 많은 어려움이 존재한다.

 음성을 인식하기 위해 상향식과 하향식 접근 방법에서 자주 발생하는 차이점에도 주목해야 한다. 상향식 접근은 처음에 음성학적 음성신호에 초점을 맞춘 후 단어와 궁극적으로 신호에서 규정된 단편으로부터 구를 짜맞춘다. 하향식 접근은 우선 문맥을 개발하는 데 집중하고 이후 단어 기대값을 버리거나 취하기 위해 음성학적 음성신호를 이용한다. 미래의 시스템에는 이 두가지 분석법이 병행사용될 것이다.

 가까운 장래에 상용시스템에서 사용될 언어모델의 한가지 형태는 실제 사용되는 단어 순서를 통계적으로 분석하는 모델이다. 통계 그래프는 특정한 단어가 다른 단어 뒤에 올 가능성을 관찰, 음성학적 신호 프로세싱을 도와준다.


브랜드 뉴스룸