문서 인공지능(AI) 전문 기업 이파피루스(대표 김정희)는 문서 데이터 추출 기술 '파이뮤PDF 프로(PyMuPDF Pro)'를 국내 출시한다고 20일 밝혔다.
파이뮤PDF 프로는 이파피루스 자회사 미국 아티펙스가 2005년 개발 및 출시한 C언어 기반 문서 데이터 추출 기술 '뮤PDF(MuPDF)'의 파이썬 바인딩 라이브러리다.
AI 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있다. 2016년 첫 출시된 이래 누적 다운로드 약 9000만건을 기록했다. 현재 일간 다운로드 100만건을 유지하고 있다.
파이뮤PDF 프로는 문서 내 텍스트는 물론 이미지, 표, 리스트도 추출 가능하다. 읽기 순서에 기반해 문서 레이아웃을 구성하며, 문서 내 좌표 정보를 포함한 단어 단위 추출 방식을 통해 다단을 포함한 복잡한 문서 데이터도 원본 구조를 그대로 살려 추출할 수 있다.
추출한 데이터는 마크다운(Markdown) 형태로 제공되며 JSON, HTML, 텍스트 파일 등 사용자가 원하는 포맷으로 자유자재로 변환할 수 있다. 파이썬이 구동된다면 어떤 환경에서든 사용할 수 있다.
LLM(대규모 언어 모델, Large Language Models) 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 특화 기능을 갖췄다. 추출한 문서 데이터를 LLM 및 RAG 친화적인 라마인덱스 리더(LlamaIndex Reader) 파일로 출력한다.
문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(Chunk, 말뭉치)를 생성할 수 있다. 생성형 AI 학습 효율을 높이고, 문서 기반 대화형 서비스를 개발하는 데도 유리하다. PDF, MS오피스, 한글 문서, 이미지 외 다양한 문서 포맷을 지원한다.
김정아 이파피루스 부사장은 “파이뮤PDF 프로는 이미 2023년부터 AI 챗봇 '챗GPT'의 학습 및 문서 처리를 위해 쓰이고 있다”며 “글로벌 시장에서 입증된 성능을 국내 고객들도 체험하길 바란다”고 말했다.
이파피루스는 문서 AI 기술 전문 기업이다. 다양한 언어 모델과 데이터 추출 기술을 개발했다. 인공지능 훈련 및 활용에 필수적인 솔루션을 제공한다.
미국 및 유럽, 일본 등에 해외 자회사를 통해 글로벌 사업을 전개 중이다. 전체 매출 절반 가량이 해외 고객사다.
임중권 기자 lim9181@etnews.com