"쉐에-어탁." 아침에 출근할 때마다 누군가 계단에서 지르는 소리다. 그것이무슨 소리인지 궁금하여 아내에게 물어보니, 세탁소에서 세탁물이 있으면 맡기라는 소리란다. 그러고 보니 아침마다 들리는 그 소리가 "쉐에-탁"으로 들리는 것이 아니라 비로소 세탁으로 들린다.
골목길을 누비고 다니는 상인들의 소리나 20~30년 전 밤의 호떡 장수나 찹쌀 떡 장수의 소리들은 처음 듣는 사람에게는 무슨 소리인지 쉽게 인식되지 않는다. 그 이유는 두 가지로 생각해 볼 수 있다. 하나는 그 소리를 이해할 수있는 근거가 전혀 없다는 것이다. 만약 "쉐에-탁"하기 전에 "아무개 세탁소 에서 왔습니다"라고 하였다면 쉽게 그것이 세탁을 뜻하는 소리인지 알 수 있었을 것이다. 두번째는 그 소리를 전에는 들어본 적이 없기 때문이다. 미리 누가 아침마다 그런 소리가 날테니 놀라지 말라고 가르쳐 주었다면 쉽게 그 소리를 이해했을 것이다.
이렇듯 인간의 언어능력이란 경험을 통하여 이루어진다는 것을 쉽게 생각해 볼 수 있다. 그러나 어떤 그룹의 학자들은 어린이가 말을 배울 때 모든 말을 다 들어보지 않고도 말을 할 수 있는 것은 원래부터 인간에게 언어능력이 있기 때문이라는 이론을 제시하고 있다. 그것은 촘스키의 등장으로 이론화되고 정당화되어 한때 언어처리연구분야의 가장 큰 줄기를 이루었다. 촘스키의 등장은 기존의 경험주의를 선봉하는 많은 학자들을 곤경에 빠뜨리기에 충분하였다. 그리고 그 이론은 컴퓨터 분야에서 프로그래밍 언어를 비롯해 철학등 많은 다른 분야의 학문에도 큰 영향을 미쳤다.
그러나 이 상반된 이론들은 그 어느 한 가지만으로는 인간이 어떻게 언어를 말할 수 있는가 하는 문제와 인간이 뱉어 놓은 언어를 어떻게 처리할 수 있는가 하는 문제 모두에 적용하기에는 적당하지 않다.
특히 촘스키의 이론은 인간이 말하고자 하는 의미인 심층구조와 어떻게 변형 되어 말로 만들어져 나오는가 하는 문제에 관심을 가지기 때문에, 뱉은 언어 의 많은 예외현상들에 대해 적절한 대응을 못했던 것이 사실이다. 그래서 다시 등장한 것이 이미 뱉은 많은 언어들을 수집, 그 집합체로부터 언어적 특성을 추출하여 그 언어의 정체를 밝히는 방법이다. 그러한 언어의 집합체를 코퍼스(Corpus)라고 한다.
그러나 이 방법은 이미 1950년대 시도되었던 것으로서 불행히도 1950년대 말에서 1960년대 초에 촘스키 이론의 등장과 민스키의 신경회로망(Neural Netw ork)에 대한 비판으로 경험적이고 실험적인 이러한 방법들은 사라진 바 있다. 이러한 실험적인 방법들이 1990년대 들어 다시 재등장한 가장 큰 이유는 이전보다 많은 데이터를 입수할 수 있다는데 있다. 10년 전만 하더라도 백만단어의 코퍼스가 크다고 생각했으나 오늘날에는 많은 곳에서 1억단어에서 10 억단어의 샘플 텍스트를 가지고 있다. 이러한 데이터들을 모을 수 있었던 것은 ACL DCI(Association for Computational Linguistics/Data Collec tion Initiative), ECI(European Corpus Initiative), BNC(British National Corpus), LDC(the Linguistic Data Consortium)그리고 EDR(Ele ctronic Dictionary Consortium)같은 단체들의 노력의 결과이다.
인간의 언어능력에 대한 연구는 언어에 대한 데이터를 중심으로 하는 접근방식을 채택케 됨으로써 숫자적인 평가와 구체적인 결과물을 가져오게 되었으며 제한된 영역의 인공적인 깊은 분석보다 비록 표면적일지라도 제한되지 않은 넓은 영역에 걸친 분석이 이루어지게 되었다. 물론 수집해야 하는 데이터의 양이 10억단어면 언어의 정체를 밝히는데 충분한지 그 이상이 되어야하는지 아직은 모른다. 그것은 언어처리 문제가 아직도 "쉐에-탁"을 "세탁" 으로 이해하고 있지 못하는 수준에 있기 때문이다.
SW 많이 본 뉴스
-
1
모바일 주민등록증 전국 발급 개시…디지털 신분증 시대 도약
-
2
삼성SDS, 클라우드 새 판 짠다…'누리' 프로젝트 띄워
-
3
제주도에 AI 특화 데이터센터 들어선다…바로AI, 구축 시동
-
4
공공·민간 가리지 않고 사이버공격 기승…'디도스'·'크리덴셜 스터핑' 주의
-
5
삼성SDS, 병무청 행정 시스템 클라우드 전환 맡는다
-
6
오픈AI, 코어위브와 클라우드 계약…MS와 결별 가속화되나
-
7
마케터, 생성형 AI 의존 심화…사용자 신뢰 잃을라
-
8
[뉴스줌인]경기 침체 속 오픈소스 다시 뜬다…IT서비스 기업 속속 프로젝트 추진
-
9
산·학·연 모여 양자 산업 지원…NIA, 양자 클러스터 기본계획 마련 착수
-
10
유통가 개인정보 유출사고 연이어
브랜드 뉴스룸
×