김정희 이파피루스 대표 “AI 시대 '문서 데이터 관문'될 것”

Photo Image
김정희 이파피루스 대표가 전자신문과 인터뷰를 가졌다.

PDF, 한글, 오피스 등 다양한 문서 파일에서 인공지능(AI)용 데이터를 추출하는 솔루션을 보유하고 있는 이파피루스가 '조용한 돌풍'을 일으키고 있다. 세계 최대 오픈소스 플랫폼인 '깃허브'에서 이파피루스가 개발한 PDF 추출 솔루션 '파이뮤PDF(PyMuPDF)'가 기록적인 다운로드 수를 작성 중이고, 개발자들이 실제 프로젝트에 솔루션을 사용하는 비율을 나타내는 지표에서도 1위를 차지했다. 국내 소프트웨어 산업과 오픈소스 생태계에서 매우 이례적인 일로, 이파피루스를 이끄는 김정희 대표를 만나 그동안의 성과와 성장 전략을 들었다. 다음은 일문일답.



- '파이뮤PDF(PyMuPDF)'가 개발자들 사이에서 주목받고 있다. 어느 정도인가.

△ 누적 다운로드가 깃허브 기준 6억1000만회를 넘었다. 3년 만의 성과다. 또 해당 라이브러리를 실제 제품에 가져다 쓴 프로젝트 수 '디펜던츠(Dependents)'에서도 글로벌 PDF 라이브러리 중 1위를 기록했다. 세계 최고 수준의 사용량을 보여줄 뿐만 아니라 전 세계 개발 생태계가 신뢰하고 채택하는 기술임을 입증했다 자평한다.

- 개발자들이 많이 쓴다는 것이 어떤 기술적, 산업적 의미를 갖는 건가.

△ 개발자들이 특정 라이브러리를 많이 쓴다는 것은 데이터 공급망의 입구를 장악했음을 의미한다. 쉽게 말해 PDF 솔루션은 문서를 읽어 데이터를 추출하는 기술인데, 개발자들이 쓴다는 건 데이터 추출에 우리 기술을 쓴다는 것이다. 산업적으로는 문서 내의 '비정형 문서 데이터'를 '정형 데이터'로 바꾸는 가장 효율적인 도구로 공인받은 셈이다.

- 문서 데이터 추출은 인공지능(AI)에도 중요 이슈로 안다. '파이뮤PDF' 저변 확대는 의미가 있을 듯한 데.

△ 맞다. 대형언어모델(LLM) 성패는 결국 '학습 데이터의 품질'에 달려 있기 때문이다. 전 세계 비즈니스 정보의 80% 이상은 PDF 형식으로 존재한다. 이를 AI가 이해할 수 있는 텍스트로 변환할 때 레이아웃이 깨지거나 표 데이터가 뒤섞이면 모델의 '환각(Hallucination)' 현상이 심해진다. 파이뮤PDF는 문서의 구조적 맥락을 유지하며 데이터를 추출하기 때문에 검색 증강 생성(RAG) 및 LLM 구축을 위한 필수 전처리 라이브러리로 평가받고 있다. AI 시대에 PDF는 단순한 문서가 아닌 '데이터의 보고'이며, 파이뮤PDF는 그 보고를 여는 가장 정교한 열쇠라 할 수 있다.

- 국내 소프트웨어가 글로벌 개발자들 사이에 자리 잡은 건 매우 드문 사례 같다. 다만 파이뮤PDF는 오픈소스다 보니 사업화에 대한 고민이 있을 것 같다. 이파피루스의 전략은 무엇인가.

△ 보통 오픈소스라고 하면 수익 모델이 없다 생각하기 쉽지만 우리 전략은 다르다. 전 세계 개발자들이 제약 없이 우리 기술을 쓰게 만들어 압도적인 점유율을 확보하는 것이 먼저다. 사실상의 시장 표준이 되면 이를 상업적 제품에 넣어 수익을 내려는 글로벌 기업들은 자연스럽게 상용 라이선스를 구매하게 된다. 기술 선점은 오픈소스로, 수익 창출은 글로벌 엔터프라이즈 시장에서 실현하는 모델이다. 실제로 올해 초 골드만삭스와 계약을 체결했다. 팔란티어, 마이크로소프트도 고객이다. 지난해 매출 240억원을 거뒀는데, 이 중 70억원이 파이뮤PDF로 나왔다. 지난해 신규 고객이 3배 늘었다. 올해도 3배 이상 증가할 것이다.

- 성장성, 시장성은 어떻게 보나. 비전과 목표는.

△ 아직도 수많은 정보가 문서로 남아있다. 시장은 100배 이상 커질 것으로 본다. 전 세계 개발자들이 AI 모델을 만들 때 “이파피루스 파이뮤PDF 없이는 시작조차 안 된다”라고 느낄 만큼 필수적인 AI 인프라 기업으로 차별화할 것이다. 이파피루스는 앞으로 전 세계 모든 AI 모델이 학습 데이터를 쌓을 때 반드시 거쳐야 하는 'AI 시대의 문서 데이터 관문'으로 기억되게 만들겠다. 한국의 소프트웨어 기술이 세계 표준이 되는 시대를 앞당기겠다.


윤건일 기자 benyun@etnews.com

브랜드 뉴스룸