<첨단기술의 현장을 가다>15회-MIT 미디어랩(1)

종전의 우리나라 정보통신, 과학기술 발달은 선진국의 기술을 벤치마킹하는 데 중점을 두고 이뤄졌다. 그러나 우리의 과학기술이 선진국에 근접하면서 벤치마킹은 어려워졌다. 선진국들이 우리의 접근을 허락하지 않기 때문이다. 취재팀은 선진국 정보통신기술의 현주소를 파악하기 위해 미국의 MIT, 조지아텍, 영국의 UCL을 찾았다. 이들의 연구개발 현장에 대한 이야기를 3회에 걸쳐 연재한다. 편집자

매사추세츠공과대학 미디어랩

-멀티미디어 정보검색엔진

최근 인터넷, 전자기술의 발전과정은 「진보」를 뛰어넘어 「혁명」적이라고 할 만큼 빠르다.

인터넷의 발전은 멀티미디어 정보를 비롯, 사회 전반의 다양한 분야에서 활용되고 있다. 그 수요 역시 기하급수적으로 증가하고 있다.

멀티미디어 정보의 증가로 인해 각종 정보를 효과적으로 검색할 수 있는 기술개발이 절실해졌다. 국내에서도 몇몇 과학자들에 의해 연구중인 이러한 분야에 대한 MIT미디어랩의 연구수준은 세계적이었다. 이 기술은 현재 MPEG7에서 중요한 이슈로 논의되고 있으며 표준화가 진행중이다.

과거 작고 단순한 영상이 주종을 이루던 90년대 초반과는 대조적으로 현재는 다양한 압축기술을 이용한 동영상 및 다양한 형태의 영상 및 음성정보를 통해 진정한 의미의 멀티미디어 정보로 활용되고 있다. 과거 일부 전문직종에서 제한적으로 사용되던 멀티미디어 정보도 인터넷의 폭발적인 증가에 힘입어 대중적으로 이용되고 있다.

이러한 멀티미디어 정보 확산은 많은 멀티미디어 정보를 보다 효율적으로 관리하며 또한 검색할 수 있는 시스템 수요를 요구하게 됐다.

과거에는 사용자가 각각의 동영상에 대해 일일이 주석을 붙인 뒤 이 주석을 해당 멀티미디어 정보와 함께 저장해야만 정보검색이 가능했다.

그러나 멀티미디어 정보의 양이 많아지고 각각의 응용분야마다 각기 다른 관점에서 주석을 기술하기에 객관적인 검색 및 관리가 이뤄지지 않았다.

멀티미디어 데이터가 본질적으로 순차적(sequential) 특성을 갖고 있기에 사용자가 원하는 세그먼트에 정확하게 접근하는 것이 대단히 곤란했다. 뿐만 아니라 많은 시간이 요구되며 비디오 전체를 하나의 데이터로 취급해야 하기에 활용도면에서도 많은 문제점을 갖고 있다.

이러한 주석기반 검색기법의 단점 및 순차성에 따른 문제점을 극복하기 위해 제안된 기술이 바로 내용기반 멀티미디어 검색기술이다.

내용기반 멀티미디어 검색기술은 주어진 멀티미디어 데이터를 그 내용에 기반하여 각각의 비디오 세그먼트로 자동 분할한다. 분할된 영역의 내용은 하나의 대표 프레임으로 설정된다. 대표 프레임 설정에서는 색, 질감, 모양, 음성과 같은 속성(feature)들을 자동으로 추출하고 이를 기반으로 검색을 하게 된다.

순차성을 갖고 있는 멀티미디어 정보를 그 내용에 기반하여 사용자가 원하는 곳에 직접 액세스할 수 있게 한다.

멀티미디어 검색기술은 기본적으로 전체 비디오 데이터를 각각의 비디오 세그먼트로 분할하여 관리하는 구조화 기술과 각 대표 프레임에 있는 영상 및 음성의 특성을 이용하여 검색하는 검색기술로 나눌 수 있다.

초기의 구조화 기술은 비디오 내용에 상관없이 일률적으로 시간 또는 세그먼트의 크기에 따라 기계적으로 비디오 데이터를 나누어 저장 관리했다. 그러나 이러한 기계적인 방식은 비디오 내용에 기반하지 않았기 때문에 디지털 비디오를 내용에 기반하여 접근하려는 데는 많은 도움이 되지 못했다.

미디어랩은 이러한 문제점을 해결하기 위해 내용에 기반한 구조화 기술개발에 나서고 있다.

내용에 기반한 구조화 기술은 급작스런 장면의 변환이 일반적으로 그 내용의 변환을 나타내고 있다는 특징에 착안한 것이다. 비디오 신(scene)에 있는 카메라의 이동(xooming, panning 등) 및 급작스러운 장면을 검출해 전체 비디오 데이터를 이러한 변환이 있는 것을 기반으로 하여 자동으로 구조화하는 기술이다.

이렇게 나뉜 비디오 세그먼트는 그 내용을 가장 잘 나타내는 하나의 대표 프레임으로 나타난다. 대표 프레임을 선택하는 데 있어 초창기에는 잘린 세그먼트의 중간 프레임 또는 처음이나 마지막 프레임을 그 대표 프레임으로 설정하는 기계적인 방식이 사용됐으나, 현재는 세그먼트 내에 존재하는 프레임의 색깔 분포도를 분석하여 그 중 가장 많은 분포도를 나타내는 프레임을 그 대표 프레임으로 선정하는 등 다양한 방법이 시도되고 있다.

이러한 대표 프레임이 각각의 비디오 세그먼트를 대표하기에 순차적인 특성을 갖고 있는 멀티미디어 정보는 해당 정보가 갖고 있는 대표 프레임만을 검색함으로써 전체를 파악할 수 있다. 사용자가 해당 멀티미디어 정보에 쉽게 접근할 수 있는 기반이 된다.

전체 비디오를 모두 보아야만 알 수 있었던 정보를 대표 프레임에 대한 파악만으로 쉽게 찾을 수 있다는 것이 이 기술의 핵심이다.

대표 프레임은 여러가지 영상 특성 정보로 구성되어 있기에 해당 대표 프레임의 영상 특성을 추출해 표현한다. 사용자는 기존의 객관성이 결여된 주석기반이 아닌 보다 객관적인 영상정보로 해당 멀티미디어 정보를 검색할 수 있게 된다.

내용기반 검색에서 사용되는 대표적인 영상 특징 속성들로는 색상, 질감, 모양, 움직임 정보가 대표적이다.

색상정보는 주로 색상 히스토그램 중복도, 색상 히스토그램 거리가중치, 평균색상 거리, 색상 인접정보 등을 이용한 색상 유사도를 측정함으로써 이뤄진다. 질감 정보는 모델, 잔디밭, 모래사장, 모피와 같이 구조화된 패턴의 특징을 나타냄으로써 가능하다. 모양정보는 영상 데이터로부터 추출된 모서리(edge)를 이용하여 사용자가 직접 그린 스케치 정보와의 유사도를 측정하여 멀티미디어 정보를 검색한다.

디지털 비디오에 나타나는 사물(object)의 움직임을 추적, 검색하는 움직임 정보도 매우 중요한 요소다. 이외에도 자막정보 추출을 통해서 기존의 문자인식시스템과 연동하여 자동 비디오 서머리(summary)를 구현하며 이를 통해 멀티미디어 정보를 검색하기도 한다.

이러한 영상 속성뿐 아니라 음성 특성을 이용해 그 내용을 검색하는 기술도 개발되고 있다. 일례로 많은 관중의 함성 및 한 사람의 내레이션과 같은 음성의 특징들로 해당 세그먼트의 분위기 및 중요도를 측정하여 검색에 사용되고 있다.

색깔의 분포에 따라 감정을 나타내는 감정기반 검색도 가능하다. 어두운 색이 많으면 우울한 신, 자극적인 색깔이 많으면 불안정한 신 등으로 구분하는 방법이다.

현재 MIT미디어랩의 기술은 비라지(Virage)사에 의해 상용화됐다.

비라지사는 이러한 검색기술을 바이오메트릭스 기술과 접목해 멀티미디어 정보 내의 음성정보를 이용하여 화자를 인식하는 시스템에 이용하고 있다. 방송 비디오중에서 화자가 멀티미디어 데이터의 어느 부분에 나타나는지의 파악도 가능하다. 비라지사의 기술은 얼굴 인식기술을 이용해 찾으려고 하는 사람의 정보를 순식간에 검색해준다.

비라지사는 이 시스템을 보안시스템과 연동해 비디오에 나타난 인물이 특정 기관의 기관원인지 아니면 외부 침입자인지 알 수 있는 시큐리티 시스템도 개발중이다.

비라지사는 자사 내용기반 검색시스템을 이용해 강사의 얼굴 및 목소리를 통해 사용자가 원하는 강의에 빠르게 접속할 수 있는 새로운 원격교육시스템을 개발했다.

<보스턴=김상룡기자 srkim@etnews.co.kr 서한기자 hseo@etnews.co.kr 김규헌 ETRI 연구원 kkim@etri.re.kr>


브랜드 뉴스룸