<해외기술동향> "전자파일링시스템" 히트 예약

 일본 미쓰비시전기가 독자 개발한 첨단 인식기술과 검색기술을 활용해 종이문서를 자동으로 등록하고 간편하게 검색하는 완전자동 전자파일링시스템을 업계 최초로 개발했다.

 이 시스템의 가장 큰 특징은 문서입력과 분류항목등록에 수작업이 전혀 필요치 않다는 점으로 이미지 판독기로 종이문서를 읽어들이기만 하면 문서의 특정이미지를 자동으로 저장해 프리 키워드(자유로운 검색어) 검색에 대응한다.

 「사무실의 페이퍼리스화」라는 기치 아래 지금까지 여러 종류의 종이문서 전자파일링시스템들이 등장했으나 등록작업에 소요되는 시간과 인건비 등의 문제로 널리 보급되지는 못했다. 이번 미쓰비시전기의 새 시스템은 이같은 문제들을 해결해 향후 일본 사무실내 종이문서의 전자화·공유화에 크게 기여할 것으로 보인다.

 종이문서를 기록미디어에 저장하는 시스템 가운데 현재 널리 알려진 장치로는 광파일링장치를 꼽을 수 있다. 그러나 광파일링장치의 대부분은 종이문서의 내용을 글자가 아닌 이미지로 저장하기 때문에 프리 키워드를 통한 문서검색이 불가능하다.

 또 문서검색에 대응하기 위해 광학문자판독장치(OCR)로 글자를 인식해 문서의 문자코드를 입력하는 방법도 활용되고 있으나 아직 OCR의 문자인식이 완전하지 않기 때문에 인식오류를 점검해 잘못 인식된 문자를 일일이 수정하지 않으면 안된다.

 더욱이 간편한 검색을 위해서는 저자명, 제목, 문서 개요 등 항목별로 검색할 수 있도록 설정해 놓을 필요가 있는데 지금까지는 이 과정을 모두 수작업으로 해야 했다.

 그러나 이번 미쓰비시전기가 개발한 전자파일링시스템은 복사기를 사용하는듯한 간편한 감각으로 대량의 종이문서를 기록미디어에 저장할 수 있을 뿐 아니라 프리 키워드로 입력한 내용을 검색할 수 있다. 특히 기존 OCR의 경우 입력과정에 빼놓을 수 없는 인식결과의 점검과 수정이 불필요하기 때문에 취급이 불편한 종이문서를 간편하게 파일링할 수 있다.

 이같은 완전자동파일링을 위해 미쓰비시전기는 문서이미지를 통한 키워드 검색기술과 섬세한 문자인식기술 등을 독자 개발, 새 시스템에 적용했다. 이 회사가 독자 개발한 대표적인 기술은 「형상특징병행검색기술」 「이완항목조합기술」 「외곽제로교차특징기술」 등 3가지로 이들 기술과 관련해 10건의 일본 국내특허를 취득했다.

 형상특징병행검색기술은 키워드로 문자를 검색할 때 기존 문자의 문자코드만으로는 조회되지 않을 경우 문자의 형상특징을 병행해 검색하는 기술을 말한다. 문자인식결과뿐 아니라 문자형상도 동시에 조회하기 때문에 「人(사람 인)」을 「入(들 입)」으로 인식하는 문자의 단순인식오류와 문자가 흐릿해 알파벳 D를 「 I 」 와 「 〕」로 나누어 인식하는 분리인식오류를 모두 흡수해 정확하게 판독한다. 미쓰비시전기측은 이 형상특징병행검색기술의 개발로 기존 OCR를 이용할 경우 83.8% 정도였던 문자검색률이 97.5%까지 높아졌다고 주장하고 있다.

 이완항목조합기술은 정형화된 종이문서의 항목별 레이아웃정보(위치, 크기 등)와 항목별 기술내용(사용된 문자종류, 키워드 등)을 토대로 문서를 구성하는 문자열을 체계적으로 정리하는 분류기술로, 이 기술을 이용하면 저자명, 제목 등이 포함된 정형문서의 항목별 분류가 자동으로 이루어진다.

 이 기술을 적용하지 않은 전자파일링시스템의 경우는 미리 상정해 놓지 않은 노이즈나 레이아웃 변화에는 전혀 대응하지 못하기 때문에 정해진 레이아웃과 조금만 달라도 정확한 항목추출이 불가능했다. 그러나 새 기술은 각 항목에 대응하는 후보를 여러개 준비해 이완법으로 후보를 서서히 줄여나가기 때문에 기존 레이아웃에서 크게 벗어난 정형문서도 항목별 분류를 가능하게 한다. 따라서 문서항목을 지정하는 효율적인 키워드 검색에도 대응한다. 미쓰비시전기측은 논문 겉장과 문헌초록으로 실험한 결과 약 98%의 항목분류율이 확인됐다고 밝혔다.

 외곽제로교차특징기술은 잉크와 종이 2가지 색채로 구성된 문자패턴을 2차원 필터로 선염해 화소들이 2가지 색채 이상의 멀티(다단계)패턴이 되도록 해 화소의 색채가 급격히 변하는 점(제로교차점)을 기준으로 문자의 외곽을 구하는 방식이다.

 이 기술을 이용하면 흐릿한 문자도 안정적으로 외곽형상 추출이 가능하다. 현재의 문자인식기술은 흐릿해진 문자에서 선명하게 남아있는 부분만을 기준으로 해 외곽을 구하기 때문에 정확도가 떨어진다. 미쓰비시전기는 이 기술에 통계적 기법을 추가해 문자식별능력을 크게 높였는데 멀티폰트로 작성된 한자, 히라가나, 가타카나, 영문자, 숫자, 기호 등 4천37종류의 문자에 적용해 실험한 결과 인식률이 99%를 넘는 것으로 분석됐다고 주장했다.

 미쓰비시전기의 종이문서 완전자동 전자파일링시스템은 이들 신개발 기술의 집대성이라고 볼 수 있는데 이 시스템은 앞으로 법률·규범책자, 각종 민원통지서류, 매뉴얼 등이 뒤섞여 있는 관공서와 일반 기업의 사무실 문서관리시스템으로 수요를 창출할 수 있을 것으로 전망된다.

<심규호기자 khsim@etnews.co.kr>

브랜드 뉴스룸