국립국어원이 인공지능(AI) 한국어 처리 능력 향상에 필수적인 AI 학습용 한국어 자료 11종(신규 8종·정비 3종)을 1일 '모두의 말뭉치' 홈페이지에 공개한다.
공개 자료는 국립국어원에서 지난해 구축하고 정비한 자료로 온라인 약정서를 작성하고 승인받으면 누구나 파일을 내려받아 활용할 수 있다.
공개되는 자료는 지난해 국립국어원이 수집한 신문, 국회 회의록, 온라인 대화 등을 담은 원시 자료 4종과 속성 기반 감성, 추론 확신성, 개체명 정보를 분석한 자료, 개체명 분석 정보에 위키피디아 지식 정보를 연결한 개체 연결 자료 등 분석 자료 7종이다.
한국어 특성을 반영해 속성 기반으로 감성을 분석한 말뭉치, 일반인이 문장에서 추측할 수 있는 가설을 확신하는 정도를 표시한 추론 확신성 말뭉치 등도 공개한다. 국립국어원이 하반기에 개최하는 'AI 언어 능력 평가 대회'에 평가 자료로 사용할 예정으로 전체의 절반만 공개했다. 하반기에는 비윤리 표현 말뭉치, 표·그림 등에 대한 유사문장 생성 말뭉치 등도 공개할 예정이다.
이밖에도 개체명 분석 말뭉치에 위키피디아 지식 정보를 연결한 개체 연결 자료, AI가 인터넷상 우리말 자료를 좀 더 쉽게 분석할 수 있도록 교정한 맞춤법 교정 말뭉치도 제공한다.
국립국어원이 수집·구축한 한국어 말뭉치는 2020년 8월 공개한 이후 1만여건 이상 배포됐으며 270여개 기업과 기관에서 활용하고 있다.
장소원 국립국어원장은 “국립국어원은 앞으로도 AI 기술 개발을 위한 전문적이고 분석적인 우리말 자료를 지속 구축, 공개해 AI 우리말 능력을 향상하는 데 많은 도움이 되도록 지원할 계획”이라고 말했다.
박종진기자 truth@etnews.com