정부·공공 AI 학습용 데이터 전수조사…100종 공개 목표

Photo Image
생성형 AI 이미지

과학기술정보통신부가 한국지능정보사회진흥원(NIA)와 범부처 현황조사 '인공지능(AI) 학습용 데이터 현황조사'를 실시한다.

각 부처·공공기관이 보유한 AI 학습용 데이터 현황을 체계적으로 파악하고, AI 활용이 가능한 고품질 데이터 확보 기반을 마련하기 위한 'AI 학습용 데이터 센서스' 프로젝트다.

현재 공공기관이 보유한 AI 학습용 데이터는 기관별 분산·관리되고 있어 보유 현황과 활용 등 종합적 파악이 어렵고 AI기업이 학습으로 연계·활용하기에 한계가 있다는 점을 고려했다.

과기정통부는 AI기본법 제15조 AI 학습용 데이터 관련 시책 수립 등에 근거, 부처 대상 첫 전수조사를 실시하기로 했다. 각 기관이 보유한 AI 학습 데이터 현황을 체계적으로 진단하고 AI 학습 활용 가능성이 높은 데이터 100종을 발굴, 60억원 규모 'AI 학습용데이터 통합제공체계'로 연계·제공할 계획이다.

통합제공체계는 AI 학습용 데이터가 다수 적재된 기존 'AI허브'(14대 분야 903종 개방)를 개편해 공공·민간이 보유한 AI 학습용 데이터를 집적하고 누구나 쉽게 검색·활용할 수 있게 국가 차원에서 지원하는 플랫폼이다.

이번 센서스는 AI 학습용 데이터뿐 아니라 향후 가공으로 활용 가능한 데이터까지 포함해 조사할 예정이다. 단순 현황 파악을 넘어 실제 AI 학습에 활용 가능한 데이터 후보군을 도출하는 게 핵심이다.

조사 항목은 AI 학습용 데이터 유형·구조, 구축 목적, 제공 가능 범위 등 AI 학습 활용 가능성과 직결되는 요소 중심으로 구성된다. 표준화된 조사체계로 조사 일관성과 신뢰성을 확보할 계획이다.

센서스를 통해 발굴한 각 기관 AI 학습용 데이터 보유 현황을 토대로 기관·분야·유형별로 데이터 제공 가능 여부, 가공 수준 등에 대한 종합 검토한다. AI 학습 활용 가능성이 높은 데이터 후보군을 도출해 전문가 심층 인터뷰·민간 수요조사 등을 거쳐 통합제공체계로 연계·제공한다.

선정된 데이터 100종은 품질 보완, 비식별조치 등 AI 학습용 데이터 가공 관련 기술·재정 지원을 거쳐 제공된다. 온라인 공개가 어려울 경우 '데이터 안심구역'을 통한 제공도 병행한다.

김경만 과기정통부 인공지능정책실장은 “AI 성능과 품질 핵심은 활용 가능한 풍부한 데이터에 있다”며 “이번 조사로 공공부문이 보유한 AI 학습용 데이터 자산을 체계적으로 발굴하고 이를 편리하게 활용할 수 있는 AI 학습용 데이터 통합 제공 기반을 지속 발전시켜 나가겠다”고 말했다.


박종진 기자 truth@etnews.com

브랜드 뉴스룸