LG CNS, 인공지능용 한국어 표준데이터 10만개 개방

LG CNS는 인공지능(AI) 자연어 이해를 위한 한국어 표준데이터 10만여개를 제작해 국내에 무료 개방한다.

언어 AI 개발을 위해서 학생들이 공부하는 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다. 해외는 미국 스탠포드대학, 마이크로소프트(MS) 등이 제작한 영문 표준데이터가 AI 개발에 활용된다. 국내에서는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.

Photo Image — 5일 서울 마곡 LG사이언스파크에서 열린 LG CNS AI커뮤니티 행사에서 이주열 LG CNS AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. LG CNS 제공

LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 '코쿼드 1.0'을 제작해 공개했다. 네이버, 카카오 등 국내 AI 기술 기업과 AI 현업 종사자 등 50여 팀이 코쿼드를 사용한 AI 개발에 나섰다.

표준데이터 제작은 자사 AI 개발에만 활용하는 게 아닌 외부에 개방해 향후 AI 연구자 간 시너지로 국내 AI 기술 발전에 기여한다는 의미가 있다.

LG CNS는 5일 서울 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 AI 커뮤니티 행사 'AI 테크톡 for NLU(자연어 이해)'를 열고 '코쿼드 2.0' 출시를 발표했다.

코쿼드 2.0은 코쿼드 1.0 대비 한국어 표준데이터를 7만개에서 10만개로 확대하고 단답형에서 장문 답변이 가능한 AI를 개발하도록 데이터를 강화한 버전이다. AI가 표나 리스트 형태에 담긴 정보도 읽어 답변하도록 표준데이터 범위를 확대했다. 코쿼드 2.0 웹사이트에서 누구나 내려 받을 수 있다.

'대한민국의 수도와 그 면적은?'이라는 질문에 '서울시 605.25㎢입니다'라고 답하는 AI는 코쿼드 1.0 학습만으로 충분히 개발 가능했다. 그러나 '서울시 특징은?'이라는 질문에 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등 여러 산으로 둘러싸인…'이라는 장문 답을 위해서는 코쿼드 2.0 AI 학습이 필요하다.

AI 테크톡 for NLU 행사에는 한국전자통신연구원(ETRI), 서울대, KAIST 등에서 연구진과 교수진이 연사로 참석해 언어 AI 연구 성과와 최신 기술 트렌드를 공유했다.

현신균 LG CNS 최고기술책임자(CTO·부사장)은 “응용 분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여하려고 한다”고 말했다.

박종진기자 truth@etnews.com