NIA, 인공지능 학습용 한국어 데이터 250만개 공개

발행일 : 2019-06-14 10:08 업데이트 : 2019-06-14 14:43 지면 : 2019-06-17 8면

한국인 감정에 대한 영상 정보와 자연스러운 한국어 발성정보를 담은 인공지능(AI) 데이터가 개방된다.

한국정보화진흥원(NIA·원장 문용식)이 250만개 AI 학습용 데이터를 공개했다. △감정, 상황, 대화내용을 담고 있는 복합 영상 데이터 △자연스러운 한국어 대화 음성 데이터 △한국어 챗봇용 대화·시나리오 데이터 △한국어 기계독해 데이터 등 4종이다.

Photo Image — 인공지능 학습용 데이터 구축·현황 및 계획. NIA 제공

AI 경쟁력은 데이터 확보가 필수다. 대다수 중소·벤처기업과 스타트업은 많은 비용과 시간이 소요되는 데이터 구축에 어려움을 겪었다. AI 데이터 공개로 AI 시장에 진입하려는 신생기업에 도움이 될 전망이다.

NIA는 2017년부터 법률, 특허, 일반상식, 한국형 이미지 등 데이터셋 4종 구축을 시작으로 1월에는 관광, 농업, 헬스케어 등 7종을 개방했다.

올해 말에는 한·영 번역말뭉치, 한국형 사물이미지, 한글 글자체 이미지, 이상행동 영상 등 10종 2500여만건 데이터셋을 공개할 계획이다. 국가 R&D 과제인 지능정보 플래그십 사업 등으로 만들어진 AI 학습용 데이터 다수를 내달 AI허브에 공개한다.

지능정보 플래그십은 음성·언어·영상 등 다양한 정보를 복합적으로 학습, 사람과 상호작용하는 대화형 에이전트 기술과 서비스를 개발하는 AI분야 연구개발(R&D) 사업이다.

문용식 NIA 원장은 “AI 제품과 서비스가 활발히 개발·출시되도록 수요에 꼭 맞는 데이터셋을 대량 구축·공개, 국내 AI 산업과 시장 경쟁력을 강화하는 데 역량을 집중하겠다”고 말했다.

데이터는 NIA가 운영하는 AI허브 홈페이지에서 간단한 회원가입 후 누구나 내려받을 수 있다.

박종진기자 truth@etnews.com