IBM, 검색엔진 개발 나섰다

IBM이 동영상과 오디오 파일을 손쉽게 검색할 수 있는 차세대 검색엔진 개발에 나섰다고 C넷이 29일 보도했다.

‘마블’이라는 코드명으로 개발되고 있는 이 검색엔진은 방송사, 영화사, 개인들이 매년 생성하고 있는 수천 시간 분량의 비디오, 오디오 파일을 검색해 장면을 묘사하거나 네티즌이 질의한 검색어와 관련된 비디오 클립을 손쉽게 찾을 수 있도록 도와준다. 마블은 MPEG-7 데이터 포맷에 기반해 개발되고 있지만 인터넷에서 사용되는 어떠한 표준 비디오 포맷도 검색할 수 있다고 C넷은 전했다.

마블 개발팀은 이미 지난 8월 말 케임브리지 대학에서 개최된 한 콘퍼런스에서 200시간 이상 분량의 방송뉴스 비디오 데이터베이스를 100가지의 다른 분류 법과 분석조건에 따라 스캐닝하는 모습을 시연했다. IBM은 내년 4월까지 1000장의 기술적인 분류 목록을 개발하기로 했으며 특히 CNN·BBC·게티 라이브러리 등과 위원회를 구성해 인터넷 검색 성능을 개선하기 위한 공조노력도 병행하고 있다.

현재 인터넷 검색은 텍스트 기반에서 이미지와 오디오, 동영상으로의 전환이 빠르게 진행되고 있는 추세다. 하지만 이를 효율적으로 검색할 수 있는 기술은 초보 단계를 벗어나지 못하고 있다. 캘리포니아 버클리대학 조사에 따르면 지난 2002년에 전세계적으로 TV방송국에서 생산된 프로그램만 1억2300만 시간 분량인 것으로 나타났다. 따라서 이들 비디오 데이터에서 원하는 장면을 손쉽게 찾을 수 있는 검색엔진의 개발이 절실한 상황이다.

구글이나 야후 등 검색엔진들도 비디오 클립이나 이미지를 찾아주는 서비스를 제공하고 있지만 파일 내에 포함돼 있는 이미지를 찾아주기보다는 첨부되는 텍스트 기반의 색인 데이터에 의지하고 있으며 찾아주더라도 확실하게 확인된 극소수의 파일만을 검색한다.

마블 개발에 참여하고 있는 IBM 연구소의 인텔리전스 정보 관리 부문 매니저인 존 R 스미스는 “동영상에 수동으로 색인을 붙이는 작업은 고된 노력을 필요로 한다”며 “텍스트 또는 수동 색인작업 없이 동영상 내용에 색인을 붙이는 기술을 개발하고 있다”고 밝혔다.

이규태기자@전자신문, ktlee@


브랜드 뉴스룸