
합성 데이터가 인공지능(AI) 산업 필수재로 자리매김하고 있다. 연평균 35% 수준의 글로벌 시장 성장이 예고됐다.
12일 시장조사업체 리서치 네스터에 따르면 세계 합성 데이터 시장은 2035년까지 매년 34.7%씩 확대될 것으로 전망된다. 지난해 4억4716만달러(약 6591억원)를 넘었으며 2035년에 87억9000만달러 규모에 달할 것으로 예상됐다. 10년 만에 19.6배 고속 성장이 예견된 것이다.
유럽 일반정보보호규정(GDPR)으로 대표되는 각국 개인정보 규제 강화 추세, 거대언어모델(LLM)·시각언어행동(VLA) 모델과 자율주행 등 기술 발전과 산업 성장에 따른 데이터 수요 폭증, 실제 데이터 부족과 비용 문제 등이 합성 데이터 산업 성장 원인으로 지목된다.
합성 데이터는 로(raw)데이터를 직접 수집해 가용 데이터로 정제하는 게 아닌 알고리즘·모델·시뮬레이션을 통해 인공적으로 생성된 데이터다. 실제 데이터의 통계적 특성과 구조를 모방해 AI 학습에 사용할 정도의 수준을 담보하며 비용절감과 급증하는 데이터 수요에 탁월하다는 평가를 받고 있다.
현재 AI 사용 기업의 34%, 향후 42%가 합성 데이터 관련 연구를 진행하는 것으로 조사됐다. 빠르게 성장하는 AI산업과 함께 합성 데이터 생성과 활용이 점차 늘어나고 발전할 것이라는 의미다.
합성 데이터는 다양한 분야 AI 모델 학습에 투입된다. 자율주행차에 사용되는 센서 보정과 개발이 대표적이다. 실제 주행 환경과 유사한 합성 데이터를 생성, 가상 환경을 구축해 자율주행차 시뮬레이션에 사용하고 있다. 전장 실전 데이터가 부족한 국방 분야도 합성 데이터 수요가 큰 시장이다.
미국에서는 이미 빅테크 기업을 중심으로 실제 AI 개발 필수 요소이자 표준 기술로 자리잡고 있다. 세계 AI산업을 리딩하는 구글, 오픈AI, 엔비디아 등이 합성 데이터를 활용하고 있다.
합성 데이터 제공 기업도 늘어나고 있다. 미국에서는 헤이지를 인수한 SAS와 데이터젠, 엔비디아에 인수된 그레텔 등이 대표적이다. 마이크로소프트(MS) 등 빅테크도 합성 데이터를 생성한다. 국내에서는 영상 등 로봇 특화 데이터를 생성하는 NC AI, 금융 특화 데이터를 생성하는 큐빅 등이 있다.
업계 관계자는 “합성 데이터는 통계적 유사성과 비식별성을 기본으로 인공 생성돼 편향을 제거하고 새로운 도메인 지식을 추가, AI 모델 성능 향상에 효과적이라는 게 중론”이라며 “AI 학습에 필요한 고품질 데이터가 점차 고갈되는 상황에서 대안으로 주목받고 있다”고 말했다.
박종진 기자 truth@etnews.com



















