미국, 영어문장 변환 SW 개발

 지난 1969년 영국 BBC에서 처음으로 방송을 탄 유명한 TV쇼 ‘비단뱀 몬티의 날으는 서커스(Monty Python’s Flying Circus)’. 이의 저자인 존 클리스는 이 쇼에서 앵무새가 죽었다는 것을 여러가지 다른 말로 표현한다.

 예컨대 “이 앵무새는 더 이상 존재하지 않는다”다거나 “그(앵무새)는 소멸했고, 그의 창조자를 만나러 갔다” 또는 “그의 신진대사 과정은 이제 역사가 됐다”는 식으로 표현하는 것이다.

 이처럼 같은 의미의 말을 다른 말로 표현하는 것을 ‘페러프레이징(paraphrasing)’이라고 하는데 같은 의미를 가진 문장이라도 영어는 형태가 매우 달라 그동안 컴퓨터가 영어 문장을 페러프레이징하는 것은 난제로 여겨져 왔다.

 하지만 25일(미국시각)자 뉴욕타임즈에 따르면 MIT대 컴퓨터전자공학과 부교수 리자이너 바르질레이와 코넬대 컴퓨터과학과 부교수 릴리언 리 두 사람은 페러프레이징 소프트웨어(프로그램)를 개발, 시선을 끌고 있다.

 이들 두 과학자가 개발한 프로그램은 특정한 영어 문장을 자동으로 페러프레이징해줘 보고서 작성이나 표절 및 복사 방지에 도움을 준다. 또 아직 개발초기 단계이지만 궁극적으로는 기계가 인간의 말을 알아듣는 데도 큰 기여를 할 것으로 기대된다.

 새 프로그램을 개발하기 위해 두 과학자는 생명공학에서 사용되는 유전자 분석 방법을 활용하는 한편 지난 2000년 9월부터 2002년 8월 사이 작성된 로이터 및 AFP 기사를 시험 문장(텍스트)으로 삼았다.

 예컨대 새 프로그램은 ‘폭탄사고로 20명이 다쳤고 이중 5명은 중태다’라는 뜻의 영어문장 ‘The surprise bombing injured 20 people, 5 of them seriously’를 그 즉시 “Twenty people were wounded in the explosion, among them five in serious condition”이라는 또다른 문장으로 페러프레이징해 준다.

 바질레이 박사는 개발 프로그램에 대해 “단문 패러프레이징에 보다 강하다”며 “이는 단문의 구성이 보다 논리적이기 때문”이라고 설명했다. 그는 “새 프로그램이 10개 미만의 문장을 가진 신문의 한 기사(아티클)를 약 61% 정도 패러프레이징할 수 있다”고 덧붙이며 “하지만 이보다 긴 아티클에서는 패러프레이징 비율이 10% 이하로 뚝 떨어지는 등 아직 보완해야 할 점이 많이 있다”고 말했다. 비교적 분석이 쉬운 뉴스 문장을 시험 텍스트로 삼은 것이 두 과학자가 개발 성과를 거둔 이유로 도 평가받고 있다.

<방은주기자 ejbang@etnews.co.kr>


브랜드 뉴스룸