이파피루스, '파이뮤PDF 프로' 국내 출시

Photo Image

문서 인공지능(AI) 전문 기업 이파피루스(대표 김정희)는 문서 데이터 추출 기술 '파이뮤PDF 프로(PyMuPDF Pro)'를 국내 출시한다고 20일 밝혔다.

파이뮤PDF 프로는 이파피루스 자회사 미국 아티펙스가 2005년 개발 및 출시한 C언어 기반 문서 데이터 추출 기술 '뮤PDF(MuPDF)'의 파이썬 바인딩 라이브러리다.

AI 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있다. 2016년 첫 출시된 이래 누적 다운로드 약 9000만건을 기록했다. 현재 일간 다운로드 100만건을 유지하고 있다.

파이뮤PDF 프로는 문서 내 텍스트는 물론 이미지, 표, 리스트도 추출 가능하다. 읽기 순서에 기반해 문서 레이아웃을 구성하며, 문서 내 좌표 정보를 포함한 단어 단위 추출 방식을 통해 다단을 포함한 복잡한 문서 데이터도 원본 구조를 그대로 살려 추출할 수 있다.

추출한 데이터는 마크다운(Markdown) 형태로 제공되며 JSON, HTML, 텍스트 파일 등 사용자가 원하는 포맷으로 자유자재로 변환할 수 있다. 파이썬이 구동된다면 어떤 환경에서든 사용할 수 있다.

LLM(대규모 언어 모델, Large Language Models) 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 특화 기능을 갖췄다. 추출한 문서 데이터를 LLM 및 RAG 친화적인 라마인덱스 리더(LlamaIndex Reader) 파일로 출력한다.

문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(Chunk, 말뭉치)를 생성할 수 있다. 생성형 AI 학습 효율을 높이고, 문서 기반 대화형 서비스를 개발하는 데도 유리하다. PDF, MS오피스, 한글 문서, 이미지 외 다양한 문서 포맷을 지원한다.

김정아 이파피루스 부사장은 “파이뮤PDF 프로는 이미 2023년부터 AI 챗봇 '챗GPT'의 학습 및 문서 처리를 위해 쓰이고 있다”며 “글로벌 시장에서 입증된 성능을 국내 고객들도 체험하길 바란다”고 말했다.

이파피루스는 문서 AI 기술 전문 기업이다. 다양한 언어 모델과 데이터 추출 기술을 개발했다. 인공지능 훈련 및 활용에 필수적인 솔루션을 제공한다.

미국 및 유럽, 일본 등에 해외 자회사를 통해 글로벌 사업을 전개 중이다. 전체 매출 절반 가량이 해외 고객사다.


임중권 기자 lim9181@etnews.com


브랜드 뉴스룸