
최근 모든 산업에서 인공지능 대전환(AX)이 가속화되고 있으며, 많은 기업이 거대언어모델(LLM)과 생성형 인공지능(AI)을 도입해 업무 혁신을 주도하고 있다. 하지만 실제 산업 현장에서 체감하는 AI 도입의 성공률은 기대에 미치지 못하는 경우가 많다. 그 근본적인 이유는 최신 AI 기술 자체의 한계가 아니라, AI가 학습하고 활용해야 할 '데이터의 상태'에 있다. 기업 업무에 실질적으로 필요한 핵심 데이터는 대부분 잘 정제된 데이터베이스가 아닌 일반 문서 안에 존재하기 때문이다.
기업이 오랜 기간 축적해 온 수많은 PDF, 한글, 워드 문서들은 사람의 눈에는 직관적이지만, AI에는 해독하기 어려운 암호와 같다. 특히 국내 업무 환경은 이러한 글로벌 표준 포맷들과 더불어 오랜 기간 축적된 방대한 한글(HWP) 문서가 혼재돼 있어, 데이터 구축 시 국내 사정에 맞는 대응이 요구된다. 기존 HWP 문서를 AI가 이해하도록 HWPX나 PDF로 전환하는 과정에서 추가 비용과 정보 손실이 필연적으로 발생하기 때문이다. 여기에 오픈소스 변환기 등으로 텍스트만 추출해 AI에 입력할 경우 시각적 데이터(다이어그램, 이미지 등)나 문단의 읽기 순서 등 전하고자 하는 핵심 맥락이 손실된다. 이러한 맥락 훼손은 결국 AI의 치명적인 오류인 할루시네이션(환각 현상)으로 이어진다.
따라서 성공적인 사내 AI 도입 및 정착을 위한 필수 전제조건은 전사에서 보유한 비정형 문서 데이터를 AI가 정확하게 읽고 이해하며 업무에 활용할 수 있는 형태로 정제하는 것이다. 이를 위해서는 단순한 문자 인식을 넘어 문서의 레이아웃, 표 안의 표, 수식, 다이어그램 등 구조적 의미를 정보 손실 없이 변환해 마크다운(Markdown)이나 JSON, XML 같은 정형 데이터로 구조화해야 한다. 즉, AI가 원활하게 작동할 수 있도록 비정형 문서를 구조화하는 지식 데이터 파이프라인을 구축하는 것이 진정한 AX 구현의 첫걸음이다.
현장에서 수많은 기업 및 기관의 디지털 전환을 지원하며, 방대한 비정형 문서를 컴퓨터가 처리할 수 있는 정형 데이터로 변환하는 과정을 경험해 왔다. 이 과정에서 얻은 명확한 결론은, 복잡한 문서 구조를 원본의 맥락 그대로 보존하고 정밀하게 데이터화 했을 때 비로소 검색 증강 생성(RAG)의 정확도가 획기적으로 향상되고 허위 정보 생성을 제어할 수 있다는 점이다. 무역 금융 문서 분석이나 제조 산업의 공정 다이어그램 및 PPT 기반 가이드라인 분석 등 다양한 고객 사례에서도 고품질의 구조화된 데이터 추출이 AI 활용 업무 자동화의 성공을 판가름하는 핵심요소임을 확인했다.
과거의 디지털화(DX)를 넘어 AI가 스스로 판단하고 수행하는 AX로 나아가기 위해서는 사람을 위한 시스템에서 'AI가 이해하는 데이터'로의 패러다임 전환이 시급하다. 이제는 최신 AI 모델의 성능 자체에만 의존할 것이 아니라, 내부의 파편화된 문서들을 어떻게 정제하고 지식자산으로 연결할 것인지에 대한 진지한 고민과 투자가 선행돼야 할 시점이다. 결국 AI의 지능은 기업이 제공하는 데이터의 품질에 비례하며, 완벽하게 준비된 지식 자산만이 기업의 성공적인 AX를 보장하는 가장 확실한 기반이 될 것이다.
김지완 사이냅소프트 본부장 mobidic@synapsoft.co.kr



















