<전자정보통신학계를 움직이는 사람들>(37)음성인식산업

 동서양을 막론하고 말 한마디로 모든 것이 척척 이뤄지길 바라는 것은 모든 사람의 꿈이다.

 알라딘이 램프의 요정 지니를 불러내 명령을 내리는 것도, 혹부리 영감의 도깨비 방망이도, 전격제트작전의 제트카도 이런 바람의 반영이다. 음성산업은 이런 동화나 드라마에서 일어날 법한 꿈과 현실을 잇는 한 매개다.

 국내 음성산업의 시발점은 99년 L&H가 국내에 상륙한 것과 더불어 벤처열풍이 불면서 대기업과 학계 연구실의 연구인력들이 본격적인 창업에 나서면서부터라고 할 수 있다.

 이처럼 이제 막 걸음마를 시작한 국내 음성인식 산업의 발전을 뒷받침하고 있는 학계 인맥 가운데 원로로 꼽을 수 있는 사람은 우선 작고한 한국과학기술원(KAIST) 은종관 교수와 명예퇴직한 서울대 안수길 교수를 들 수 있다.

 두 사람은 78년 당시 나란히 연구실을 세우고 제자를 양성해 국내 음성정보처리 분야의 기틀을 마련했다.

 이후 83년에는 연세대 박규태 교수 연구팀과 명지대 최갑석 교수 연구팀이 그리고 85년부터는 고려대 이태원 교수 연구팀이 이 대열에 합류, 학문의 열기를 한층 가열시켰다.

 80년대 후반부터 90초에는 외국에서 학위를 마치고 음성정보처리를 연구한 유학파 연구팀들이 속속 가세, 대학에 둥지를 틀고 국내 음성산업의 선진화에 일익을 담당했다.

 KAIST 오영환 교수를 주축으로 동덕여대 이양희 교수, 연세대 윤대희 교수, 한남대 김경태 교수, 영남대 정현열 교수, 정보통신대학원대학(ICU) 한민수 교수, 한양대 강상원 교수, 충북대 이인성 교수 등은 최신 해외논문을 국내에 유입함으로써 국내 음성정보처리 기술을 한 단계 발전시키는 데 공헌했다는 평을 받고 있다.

 하지만 80년대와 90년대 초의 국내 음성기술은 외국의 기술을 모방하는 데 그친 것이 사실이다.

 이후 90년대 중반기를 넘어가면서 배명진, 이양희, 정민화, 이용주, 정익주 등 젊은 세대들이 학계에 등장, 국어의 특성에 맞는 음성알고리듬과 우리말의 특성을 본격 연구하면서 국내음성정보기술은 학문적인 발전기를 맞게 된다.

 음성의 특성을 연구하는 정보분석과 발성변환 분야는 무엇보다 음성정보기술의 기초분야다. 이 분야의 연구가 제대로 안될 경우 우리는 영어로만 명령을 내려야 음성인식이 가능해지기 때문이다.

 무엇보다 중요하고 기초적인 영역이지만 아직 국내 연구 수준은 선진국에 비해 부족한 편이다. 이 분야에 대한 연구는 숭실대 배명진 교수, 원광대 이용주 교수, 정보통신대학원대학의 한민수 교수 등이 이끌고 있다.

 숭실대의 배명진 교수(45)는 이 분야와 관련, 400편의 논문발표와 20여건의 실용화를 추진했다. 그는 정통부와 과기부 등에서 전문위원으로 활약하며 음성신호를 분석하고 발성변환에 대한 기술을 축적해왔다.

 배 교수는 93년 휴대전화용 저전송률 음성압축알고리듬을 전자통신연구원과 6년간 공동 연구했고 실용화 부문에서는 98년 음성호출기를 서울이동통신과 공동 개발했다. 또 지난해에는 정통부의 지원을 받아 음성압축기술을 전보시스템에 접목하는 목소리전보시스템을 개발했다.

 원광대 이용주 교수(47)는 불모지였던 국내 음성분야에서 80년이래 한국전자통신연구소(ETRI)와 원광대 등을 거치면서 22년 동안 음성인식과 음성합성, 음성통역 및 음성DB 연구분야를 일궈왔다. 특히 한국전자통신연구소 시절에는 음성연구그룹의 리더로서 대형 국책과제를 수행하며 국내 연구기반을 조성하는 데 기여했다.

 정보통신대학원대학 한민수 교수(40)는 서울대학교 전기공학과 출신으로 동영상압축기술(MPEG4) 표준화 위원으로 국제표준을 제정하기도 했다. 한 교수는 ETRI 음성응용연구실장과 음향연구실장을 역임하며 국내 114 안내 합성음질 개선, 한국인 표준체형을 이용한 한국형 3D 음향기술 개발, 주변 잡음 및 돌발잡음 제거 기술 등 음성분석 기술을 이용한 인식률 향상, 소형 합성기술 연구, 유무선인터넷 망의 잡음과 채널왜곡에 강한 합성기술을 연구개발해 음성기술 선진화에 초석을 다졌다.

 음성인식과 화자인식은 사람의 말을 인식하는 청각기관에 해당하는 영역을 연구하는 분야로 광운대 김순협 교수를 선두로 KAIST의 오영환 교수, 영남대 정한열 교수, 부산대 김형순 교수, 연세대 김회린 교수, 서강대 정민화 교수 등이 학계를 주도하고 있다.

 특히 이 분야는 오영환, 정익주 교수 등이 벤처를 창업하고 기술을 직접 업계에 제공하는 등 상용화 열기도 비교적 뜨거운 편이다.

 광운대 김순협 교수(54)는 지난 83년 3월 연세대학교 대학원 전자공학과에서 국내 최초로 ‘한국어 음성인식 시스템 개발에 관한 연구’로 박사학위를 받았다.

 이후 국내 음성인식 연구에 매진해 초창기 국내 음성 인식기술의 기틀을 다졌으며 지금은 국제음성정보기술 학술대회의 표준위원장과 국제적인 음성정보기술 학술대회인 ICSLP2004 유치를 위한 위원장직을 수행하고 있다.

 KAIST 교수이자 보이스피아의 대표 오영환 교수(54)는 서울대 전자공학과 출신으로 동경기술원에서 박사학위를 받았다. 오 교수는 국내보다 오히려 해외논문지에 게재한 논문이 더 많을 정도로 해외에서도 인정을 받는 인물로 최근에는 3000단어급 핵심어 음성인식, 음성합성, 음성코딩, 화자인식시스템 등의 분야에서 잇달아 연구결과물을 내놓고 있다.

 정현열 교수(50)는 일본 동북대학 대학원 정보공학과에서 ‘한국어 음성의 분석과 인식에 관한 연구’에 관한 논문으로 박사학위를 취득했다. 학위취득후 89년 영남대학교 전자정보공학부에 부임, 교수로 재직중인 정 교수는 그간 연구한 음성인식기술을 씨엘에스에 이전하기도 했다. 정 교수는 한국음향학회 영남지회장, 영남대학 부설 정보통신연구소 소장, 영남테크노파크 단장 등을 역임하면서

지역 IT 산업의 발전을 위해 애쓰고 있다.

 부산대학교 전자공학과 김형순 교수(41)는 92년 국내 최초의 상품화된 음성합성 시스템 ‘가라사대’ 개발을 주도했다.

 김 교수는 92년 ETRI에서 부산대학교 교수로 자리를 옮긴 후에도 핵심어 검출기술과 연결숫자인식 기술, 자동차 소음환경에서의 음성인식 기술, 음색변경이 가능한 음성합성 기술을 개발하는 등 활발한 연구활동을 수행하고 있다.

 강원대 정익주 교수(37)는 95년 국내 최초의 상용 음성인식 소프트웨어인 ‘보이스액세스’를 개발, 관련업계에 기술을 공급했다. 또 97년에는 음성합성 소프트웨어인 ‘텍스트액세스’를 개발하여 주연테크에 공급하는 등 연구실에 머무르고 있었던 기술의 상용화에 주력했다.

 이후 음성인식기술을 산업화하기 위해 지난해 6월 음성인식 벤처기업 디엔엠테크놀로지를 설립했다. 정 교수는 회사 설립 이후 임베디드 음성인식 기술 상용화에 몰두하고 있다.

 정보통신대학원대학 김회린 교수(38)는 임베디드 제품 개발에 일익을 담당했다. 삼익악기의 요청을 받아 피아노에 사용되는 전자음악 합성기 개발중 DMA 모듈을 개발했으며 국내 최초로 PC 기반 ARS 시스템의 상용화에도 성공했다. 이와 함께 그는 대화체 음성언어 번역시스템에 관심을 갖고 실생활에서 유용하고 광범위하게 사용하기 위해 핵심어인식 기술과 인식결과 재검증 기술(Utterance verification) 연구에 주력하고 있다.

 정민화 교수(36)는 서울대 제어계측공학과를 졸업, 서던캘리포니아 대학에서 국비로 석박사를 마쳤다. 94년부터 서강대학교에서 한국어 연속음성인식을 위해 필요한 음성인식 기술과 자연어처리 기술접목 방법을 연구하고 있다. 이를 통해 음운변화현상을 반영한 어휘모델 개발, 자연어처리 기법을 음성언어처리에 적용할 언어모델 개발, 대어휘 연속음성인식을 위한 고속 탐색엔진 개발을 중심으로 낭독체와 대화체 등 다양한 형태의 음성인식에 대한 연구를 진행하고 있다. 특히 차량정보 영역과 의료정보 영역 분야를 중심으로 대어휘 낭독체 연속음성인식기(dictation machine) 개발을 추진하고 있다.

 음성합성은 자연스러운 우리말을 기계로 구현시키는 분야로 동덕여대 이양희 교수와 호서대 임운천 교수, 강원대 조철우 교수 등이 활발한 연구를 하고 있다.

 이양희 교수(53)는 합성음의 음질 개선 연구에 몰두해왔다. 특히 한국어 음성합성의 자연스러운 운율(핏치, 음운지속시간, 에너지)을 생성하기 위한 모델을 통계로 연구했으며 현재는 고품질 음성합성 엔진 개발을 추진하고 있다.

 임운천 교수(46)는 84년 호서대학교 전자공학과 교수로 부임하기 전부터 음성 신호처리 분야에 대해 연구를 진행했다. 초기에는 변이음 단위 연결 합성시스템 가운데 음성합성 시스템의 운율구현 부분을 집중 연구했으나 현재 일반 운율 법칙 구현의 한계 때문에 인공 신경망을 이용해 자연음에 내재된 운율을 학습시켜, 운율을 발생하는 방법을 연구중이다. 최근에는 인공 신경망을 이용한 운율발생기를 모듈화해 음성 합성 시스템에 적용하는 방안을 모색하고 있다.

 동영상 압축기술과 저장기술은 통신기술에 적용되는 사례가 많지만 그 기원은

음성분야의 연구에서 비롯된다.

 이 분야에는 한양대학교 강상원 교수를 비롯해 연세대 윤대희, 고려대 이황수 교수 등이 있다.

 강상원 교수(43)는 90년 텍사스 A&M 대학에서 음성통신관련 연구로 박사학위를 취득 후 ETRI 이동통신연구단에서 이동통신용 음성코덱 관련 이론과 구현에 관한 연구를 수행했다.

 강 교수는 또 94년부터 현재 근무중인 한양대학교에서 음성압축기술에 관한 연구를 진행해 삼성전자와 현대전자, 씨앤에스테크놀로지, 사람과 기술, 서일, ETRI 등과의 협력을 통해 실용화와 상용화를 추진하고 있다.

<이경민기자 kmlee@etnews.co.kr>

브랜드 뉴스룸