'클로바 OCR' 핵심 솔루션 채택
2억만장 이상 문자·그림 판독에 투입
곡선 배열·필기체까지 정확하게 인식
기술 경쟁력 입증…美·中 패권에 도전
네이버가 일본 관계사 라인과 함께 개발한 '클로바 OCR(광학문자인식)' 기술이 일본국립국회도서관 디지털화 프로젝트에 투입된다. 클로바 OCR는 일본 국회도서관이 보유한 수억개 자료를 디지털로 변환하는데 핵심 역할을 한다. 네이버가 추진하는 글로벌 인공지능(AI) 전략의 결과물이다.
라인은 클로바 OCR가 '비전 2021~2025 일본국립국회도서관 디지털 전환' 프로젝트 솔루션으로 채택됐다고 밝혔다. 일본 국회도서관이 보유한 247만점 2억2300만장 이상의 자료를 디지털로 변환하는 프로젝트다.
일본 국회도서관은 디지털화 프로젝트를 통해 이용자들이 도서관 보유 자료를 쉽게 찾아볼 수 있도록 지원할 계획이다. 시각장애인, 노인 등 취약계층의 디지털 자료 접근성을 비약적으로 확대하는 것이 목표다.
디지털 변환 자료 대부분은 1950년대 이전 자료다. 라인은 “(대상 문서들은) 레이아웃이 복잡하기 때문에 학습 기능이 없는 기존 OCR는 이번 작업에 참여할 수 없다”고 설명했다. 클로바OCR 기술 채택으로 네이버와 라인의 AI 기술 경쟁력을 입증했다는 것이다.
'클로바'는 네이버와 라인이 개발하는 AI 서비스 공통명칭이다. 한국과 일본 연구진이 공동 개발했다. 한국에서는 네이버, 일본에서는 라인이 각각 클로바 사업을 담당한다. OCR는 카메라로 수집한 문자나 그림을 AI가 판독하는 기술이다.
한국어·일본어·영어 문자인식을 제공하는 클로바 OCR 문서분석 인식 능력은 세계 최고 수준으로 평가받는다. 문서 레이아웃 분석과 글자를 읽는 순서 방향을 추정해서 곡선으로 배열되거나 기울어진 문자, 필기체까지 정확하게 인식한다. 정형화된 영수증·등록증은 물론 그림과 글자가 섞인 동화책도 판독한다.
클로바 OCR는 국제패턴인식협회가 주최한 경진대회 'ICDAR'에서 지난 2018년 4개 분야가 세계 1위를 획득하는 등 경쟁력이 높다. 국내에서도 네이버 서비스를 비롯해 은행, 병원, 공공기관과 주요 기업 비즈니스에 활용된다.
라인은 “클로바 OCR는 일본 국회도서관 프로젝트가 요구하는 항목에 최적의 OCR 모델을 신속하고 높은 품질로 제공할 수 있다”고 강조했다.
네이버는 최근 몇 년 동안 세계 수준의 AI 기술을 확보하기 위해 투자를 늘렸다. 2019년에는 한국(네이버)-일본(라인)-베트남-프랑스를 잇는 'AI 연구벨트'를 시작했다. 구글, 페이스북, 아마존, 텐센트, 바이두, 알리바바, 화웨이 등 미국과 중국 빅테크 기업들의 기술 패권에 대응하는 차원이다.
올해는 '하이퍼클로바'라는 이름으로 초격차 AI 전략을 가동했다. 지난해 한국 기업 최초로 700페타플롭스(PF) 성능의 슈퍼컴퓨터를 마련, 대용량 데이터 처리가 가능하다.
하이파클로바에는 단일 '빅모델'에 방대한 데이터를 학습시킬 수 있다. 기존 딥러닝이 해결하고자 하는 문제나 주제별로 데이터를 확보하고 정제해 AI를 개발했다면, 하이퍼클로바는 단일 모델에 방대한 데이터를 학습시켜 다양한 문제에 적용한다.
AI 개발에 효율성과 확정성을 동시에 발전시킬 수 있는 것이다. 네이버와 라인은 하이퍼클로바를 활용해 한국어와 일본어를 각각 AI에 학습시키고 있다.
김시소기자 siso@etnews.com