제2회 문자인식워크숍 지상중계

한국정보 과학회, 대한전자공학회, 한국통신학회 등 3개 학회가 공동 주최한 제2회 문자인식 워크숍이 1일부터 2일까지 서울 쉐라톤워커힐호텔 컨벤션센 터에서 열린다. 이번 워크숍에서 한.불 학자 6명이 1일 발표할 최신 문자인 식시스템에 관한 논문요지를 소개한다. <편집자주> *한국과학기술원(KAIST0) 인공지능연구센터(CAIR)의 필기문자인식 연구현황 (김진형 KAIST 교수) 4년동안의 온라인 필기인식 연구결과 인식률과 속도를 높인 새로운 시스템을 개발했다. 이 시스템은 은닉 마르코프 모델(HMM)에 문자스포팅 기술 및 통계적. 구조적 방법에서 얻은 노하우를 결합시켜 한글과 영문이 혼용된 문서를 한꺼번에 인식할 수 있도록 했으며 글자를 인식할 때 발생할수 있는 오류를 보정해 주는사전기능도 갖췄다.

*ADRESY:온라인 흘림체에 대한 단어인식 시스템(Dorizzi 프랑스 INT대 교수) 흘림체로 쓴 온라인 영어단어를 인식할 수 있는 ADRESY시스템을 개발했다.

이 시스템은 두개이상의 글자가 연결될 경우 글자를 쓰는 과정에 나타 나는동적인 정보를 습득해 문자를 인식하도록 했으며 이때 나타날 수 있는 오류 는 사전기능을 이용해 수정하도록 했다.

*펜컴퓨터와 여러모드의 상호작용(Faure 프랑스 국립과학연구소 연구원, 텔 레콤파리대 교수) 음성 및 제스처를 인식할 수 있고 그래픽문서를 처리하는 TAPAGE 시스템을 구현해 인식된 도표를 손쉽게 조정할수 있는 펜컴퓨터를 개발했다.

이펜컴퓨터는 다중모드 인터페이스를 이용,인식된 기존의 그래픽 자료나 메뉴를 펜으로 마음대로 운용할 수 있도록하는등 복잡한 작업을 간단히 처리할수 있도록 했다.

*다중가정을 이용한 신경망에 따른 한글 및 영문 OCR 시스템(진성일 경북대교수 다양한 크기와 서체를 갖는 한글, 영어, 숫자, 특수기호 등을 인식할 수 있는 OCR 시스템을 개발했다.

이시스템은 인식할 글자를 형태분류망에서 형태를 인식해 그 형태에 맞는형태별망으로 보내면 형태별망에서 내용을 인식토록 하는 메커니즘을 사용해 정확성을 높였다.형태별망은 자소의 배열에 따라 한글을 6가지 형태로 분리하고 영문, 숫자, 특수기호는 1가지 형태로 묶어 놓은 총 7개의 망으로 이루어져 있다.

또여러 가지 가정과 검증 과정을 추가시켜 유사글자를 잘못 분류할수 있는가능성을 최대한 배제했다.

*훈련 기능을 갖는 다중언어 인식 시스템(이헌주 박사, 금성사 중앙연구소) 다국어를 인식할 수 있는 고속의 펜컴퓨터 인식기를 개발했다.

이인식기는 사용자의 독특한 필기 형태를 흡수할 수 있는 훈련모듈을 갖고있으며 한글의 경우 훈련데이터는 97%, 임의의 필기자료는 86%의 인식률을 보여 상용화가 가능하다는 결론을 얻었다.

*문서인식을 위한 통계모델 사용(Belaid 프랑스 국립과학연구소 연구원)1차 및 2차 은닉 마르코프 모델과 마르코프 모델에 맞게 확장된 비터비 알고 리듬을 이용해 다중서체를 인식하는 시스템을 구성했다.

자소를먼저 파악한 다음 이를 조합해 글자로서 인식하는 상향식 (Bottom-up )방법으로 인식을 하도록 했으며 후보문자에 대해 통계적 조합과 사전을 이용한 검증을 이용해 오류를 최소화 했다.

또사전기능을 갖는 무제약흘림체 오프라인 인식기를 개발했는데 구성가능한 단어를 많이 입력시켜 잘못 인식할 확률을 최소화 했다.

전체글자를 먼저 파악하고 자소를 분리해 인식하는 하향식(Top-do-wn) 인식 방법 및 렉시콘(Le.icon)을 사용해 탐색경로를 줄이고 연결된 문자를 블록으로 끊어서 인식함으로써 불필요한 분할을 없앴다.

브랜드 뉴스룸