[미래 여는 ICT R&D 우수성과]<중>커뮤니케이션 활용 기술

과학기술정보통신부와 정보통신기획평가원(IITP·원장 전성배)의 정보통신기술(ICT) 연구개발(R&D) 성과는 다방면에서 성과를 내고 있다. 커뮤니케이션 기술 역시 구현됐다.

IITP의 '혁신성장동력프로젝트(AI) 사업' 일환으로 나온 '언어학습을 위한 자유발화형 음성대화처리 원천기술'은 한국전자통신연구원(ETRI)이 개발했다. 사람 간 소통을 돕는다.

세계 최고 수준의 비정형 자유발화 음성인식 성능을 낸다. 뉴스의 경우 정확도가 95%를 넘는다. 구글과 비교해도 2~3% 높다. 유창하지 못한 비원어민 발화도 문자화한다. 음성인식 가능 언어는 총 13개에 달한다.

Photo Image
언어학습을 위한 자유발화형 음성대화처리 원천기술 개요

이 기술은 교육용으로도 쓸 수 있다. 우리말·영어에 한해 발화 유창성을 평가한다. 이 것 역시 세계 수준이다. 공인영어시험을 관리하는 ETS의 유창성 및 발음 평가 정확도가 약 74%인 반면에 ETRI 기술은 77% 정도다.

이들 기술은 금융감독원, 서울시, 인천국제공항공사 등이 콜센터, 회의록 음성인식 등 다방면에 사용하고 있다.

박전규 ETRI 복합지능연구실장은 “언어는 기술·문화적으로 쓰임새가 무궁무진하다”며 “AI 기술 발전이 이해하기 어려운 음성도 100% 알아듣게 도울 것”이라고 말했다.

소프트웨어(SW) 컴퓨팅산업 원천기술개발 사업 지원으로 더블미가 개발한 '홀로포트' 기술도 이목을 끈다. 마치 영화 속 홀로그램 통신처럼 입체화된 서로의 모습을 가상·증강현실(VR·AR) 기기로 보며 대화할 수 있게 한다.

대상을 360도 촬영·재현하는 '볼류메트릭 비디오 캡처 기술'을 이용하는데, 과정을 단순화 했다. 기존에는 최소 4대 카메라가 필요했다. 홀로포트 기술은 3D 카메라 1대로 충분하다.

Photo Image
홀로포트 기술은 한 대 카메라와 PC를 활용해 대상을 실시간 3D화 한다. VR과 AR 기기를 이용하면 원격 소통에 실감을 더할 수 있다.

기계학습을 활용한 결과다. 학습 내용을 바탕으로 모습을 유추·생성하기 때문에 많은 과정을 줄일 수 있다. 영상 생성도 실시간에 가깝다. 촬영 후 생성까지 40밀리세컨드(㎳) 가량이 필요하다.

더블미는 홀로포트 기술을 활용, 실제 커뮤니케이션이 가능한 '트윈 월드' 플랫폼을 구현했다. 올해 2분기에는 우리나라와 영국을 대상으로 홀로포트·트윈월드 사업화를 추진할 계획이다.

김희관 더블미 대표는 “가상화된 현실 속에서 서로를 바라보며 대화하는 것이 가능해졌다”며 “클라우드 서비스나 스마트폰 앱 개발 등 기능을 더하는 작업도 계속하고 있다”고 말했다.


대전=김영준기자 kyj85@etnews.com