온더아이티, Vision-Language Model 기반 한국어 Document OCR 모델 'BizOnAI V-OCR' 공개

발행일 : 2026-04-22 13:37 업데이트 : 2026-04-22 13:33

AI 기반 엔터프라이즈 솔루션 기업 온더아이티가 22일 한국어 문서에 특화한 Vision-Language-Model(VLM) 기반의 Document OCR 모델 'BizOnAI V-OCR'을 GitHub와 Hugging Face에 공개했다.

BizOnAI V-OCR은 기업·공공 현장에서 자주 활용되는 한국어 문서를 정밀하게 인식하도록 설계된 모델이다. 한국어 문서 레이아웃은 물론 한·영·중 혼합 텍스트, 장문 문단, 세로형 표, 복합 서식 문서까지 대응할 수 있도록 고도화한 것이 특징이다. 단순 문자 추출을 넘어 문서의 구조와 문맥까지 이해하는 실무형 OCR모델이라는 점에서 범용 OCR 모델과 차별화된다.

성능도 주목할 만하다. BizOnAI V-OCR은 한국어 문서 OCR 벤치마크 'KDoc-OCRBench' 평가에서 종합 점수 83.0%을 기록하며 비교 모델인 olmocr2(78.9%), Paddle V1.5(78.4%), DeepSeek OCR V2(76.8%), GLM OCR(67.2%)을 앞섰다. 특히 벤치마크 항목 중 '표 인식' 및 '머리글·바닥글 처리' 항목 등 실제 산업 문서 활용에 필요한 구조 인식 성능에서 비교 모델을 앞질렀다.

온더아이티는 이와 함께 804개 한국어 PDF, 1만4738건 테스트 케이스로 구성된 한국어 OCR 벤치마크 'KDoc-OCRBench'도 함께 선보였다. 기존 영어권 중심 평가체계로는 국내 산업현장 및 공공에서 자주 사용되는 문서 구조와 서식 특성을 충분히 반영하는데 제한적이었다. 하지만 'KDoc-OCRBench' 한국어 문서 처리 성능을 직접 비교·재현할 수 있도록 했다는 점에서 의미가 크다. GitHub에는 소스코드와 벤치마크 평가방식을, Hugging Face에는 모델 가중치와 데이터셋 공개 체계를 마련해 개발자와 기업이 직접 성능을 검증할 수 있도록 했다.

업계에서는 이번 공개를 한국형 문서 AI 기술의 수준을 보여준 상징적 사례로 보고 있다. 온더아이티가 고성능 Vision-Language-Model (VLM) 기반의 Document OCR 모델 공개를 계기로, 향후 검색·지식화·질의응답으로 이어지는 기업용 Document AI 시장 주도권 확보에 나설지 주목된다.

이원지 기자 news21g@etnews.com