<수요기획-뉴스&밀레니엄> Focus.. 국어 정보처리 기술

 국어 정보처리는 크게 세 분야로 나누어 볼 수 있다. 첫째는 국어에 대한 기초정보 구축, 둘째는 응용소프트웨어를 위한 요소기술, 그리고 셋째가 응용분야다. 기초정보구축은 ‘말뭉치’ 정립이 선결과제이고 요소기술서는 의미분석이 관건이다. 이를 토대로한 응용분야는 지식관리솔루션 분야등 적용분야가 광범위하다.

기초정보 구축

 기초정보 구축은 다시 두 부문으로 나뉜다. 우선 말뭉치(Corpus) 구축 부문으로서 다시 원시 말뭉치, 품사부착 말뭉치, 병렬말뭉치 등으로 구분된다. 원시 말뭉치는 사람이 쓰거나 말한 내용을 그대로 모아 놓은 것이고 원시 말뭉치의 각 어절마다 품사나 기타 정보 등을 붙여 놓은 것이 품사부착 말뭉치다. 그리고 병렬 말뭉치는 국어와 외국어를 대응시켜 놓은 것으로 번역시스템 등의 기본정보로 사용될 수 있다.

 말뭉치가 구축돼 있어야 이를 분석해 국어의 기본적인 규칙체계를 도출해 낼 수 있는 것이다. 거대한 언어샘플인 셈이다. 이 말뭉치는 양이 많을수록 언어분석의 신뢰성이 높아진다. 현재 국어의 원시 말뭉치는 1억2000만개 정도의 어절이 축적돼 있다.

 그러나 정보처리를 위한 실질적인 베이스인 품사부착 말뭉치는 1000만개 정도, 이중에서도 잘 정제된 품사부착 말뭉치는 20만개 정도로 많이 부족한 현실이다. 학자들은 원시 말뭉치가 10억어절 정도는 돼야 할 것으로 보고 있다. 자동번역을 위한 잘 정리된 병렬 말뭉치는 현재 개발된 것이 없다고 할 수 있다.

 그다음에는 전자사전 부문이 있다. 이는 말뭉치 분석을 통해 도출해 낸 규칙체계를 실질적으로 데이터베이스화한 것이다. 전자사전에는 형태소 분석용 사전, 구문분석용 사전 그리고 의미분류 사전 등이 있으며 응용분야에 따라서도 정보검색용 사전, 자동번역용 사전 등이 있다. 그리고 각 전문분야의 용어를 정의하고 표준화하는 전문용어 사전이 있다. 소프트웨어 개발에 직접적인 기반이 되는 것이 전자사전이다.

 전자사전은 현재 수십만 정도의 단어들이 각 응용분야에 맞게 구축되어 있지만 단어는 5년에 50% 정도가 없어지고 새로 생겨나기 때문에 끊임없이 구축하고 관리해야 하는 분야다. 전문용어 구축 및 표준화는 아직 요원한 실정이다.

SW 요소기술

 여기에는 형태소 분석기, 구문 분석기, 그리고 의미 분석기가 대표적이다. 형태소 분석기는 한 문장을 의미를 지닌 최소단위(품사)로 나누고 그 최소단위가 변형된 경우에는 원형을 찾아주는 작업을 하는 소프트웨어다. 구문분석기는 형태소 분석의 결과로 나온 형태소들이 올바른 문장구조를 갖추었는지를 파악한다. 의미분석기는 문장구조가 맞더라도 의미가 맞는 문장인지 가려내준다.

 국어를 위한 형태소 분석에 대한 연구는 이미 80년대 초부터 시작됐지만 실용화를 위한 시스템에 들어간 것은 몇 년 되지 않는다. 현재 형태소 분석의 처리수준은 약 80∼90% 수준으로 검색엔진 등 상품화가 가장 앞서 있다. 그러나 구문분석에 대한 연구는 완벽한 형태소 분석의 결과로 만들어지기 때문에 아직 20∼30% 정도의 수준에 머물러 있고, 의미분석에 대한 연구는 대학의 기초연구 수준에 머물러 있다.

응용분야

 사실 언어처리가 응용되는 분야는 매우 넓지만 우선 현재 제품으로 나와 있는 것들이 검색엔진, 자동번역, 교육용 소프트웨어 등이 있다.

 응용분야의 대표적인 번역소프트웨어는 일반 문장을 대상으로 했을 경우 영한번역이 약 30∼40% 수준, 일한번역의 경우는 80∼90% 정도 수준에 도달해 있는 것으로 전문가들은 평가하고 있다. 검색엔진은 형태소 분석의 성능이 검색의 정확률을 좌우하게 되는데 아직은 필요한 정보보다 불필요한 정보가 더 많이 검색되는 수준이다.

 이밖에 문서를 자동으로 요약하거나 정보를 의미에 맞게 분류해주는 소프트웨어, 자동통역, 음성인식 같은 분야에도 적용될 수 있으며 궁극적으로는 지식관리 솔루션의 기본기술로 광범위한 응용이 이루어질 수 있다.

김상범기자


브랜드 뉴스룸