NIA, 빅데이터 서비스 개발 위한 형태소 사전 제작 개방

한국정보화진흥원(NIA 원장 서병조)은 텍스트 분석 및 활용의 촉진과 빅데이터 관련 서비스 개발을 지원하기 위해 한글 텍스트 분석의 핵심요소인 형태소 사전(NIADic)을 제작해 개방한다고 21일 밝혔다.

형태소는 일정한 뜻(의미)을 지닌 가장 작은 말의 단위로 한글 텍스트 분석을 통해 다양한 의미를 추출하기 위해서는 형태소별 품사를 구분해 작성한 형태소 사전이 필수다.

형태소 사전은 국립국어원 우리말 샘사전을 바탕으로 제작됐다.NIADic는 기존 세종사전(Sejong Dic:9만 단어)외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가, 빈도수 및 연관분석 측면에서 의미있는 데이터 분석이 가능해졌다.

지금까지는 오픈소스 기반 한글 자연어 분석 패키지(KoNLP)의 세종사전을 통해 텍스트 분석을 수행했지만 단어수와 신조어가 부족해 새로운 형태소 사전 제작에 대한 요구가 많았다.

NIA는 형태소 사전을 빅데이터센터를 통해 공개하고 중소기업과 연구자, 일반인 등이 쉽게 분석 및 활용할 수 있도록 오픈소스 빅데이터 분석도구인 KoNLP의 기초사전으로 제공한다.

이에 따라 한글 빅데이터 분석의 정확성과 신뢰도를 높일 수 있고, 형태소 사전의 중복개발로 인한 비용절감, 신규 서비스 개발 주기를 단축할 수 있게 됐다. 특히 최근 급증하고 있는 음성인식 기반 다양한 사물인터넷(IoT)서비스 개발시 한글인식 성능 개선에도 기여할 것으로 기대된다.

앞으로 NIADic은 공개소프트웨어 커뮤니티에 오픈소스로 개방돼 통계분석도구 및 분석기 사용자들이 자율적으로 업데이트해 활용할 수 있다.

저작자와 출처 등을 표시하면 영리목적의 이용이나 변경, 2차적 저작물 작성을 포함해 상업적 활용이 가능하기 때문에 향후 한글 빅데이터 분석 분야 연구가 보다 활발해 질 것으로 기대된다.

권영일 빅데이터센터장은 “형태소 사전의 형태소 수가 많을수록 어휘간의 연관성에서 찾을 수 있는 유의미한 분석결과를 도출할 수 있어서 향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것”이라고 밝혔다.

<기존 형태소 사전인 세종사전(SejongDic)과 NIADic의 텍스트 분석 결과 비교>

기존 형태소 사전인 세종사전(SejongDic)과 NIADic의 텍스트 분석 결과 비교

대구=정재훈기자 jhoon@etnews.com


브랜드 뉴스룸