영상 보고 대답하는 인공지능 개발

발행일 : 2016-12-08 13:48 업데이트 : 2016-12-08 13:50

시각 능력을 지닌 인공지능 기술이 개발됐다.

장병탁 서울대 컴퓨터공학부 인지과학연구소 교수 연구팀은 영상을 보고 음성으로 질의 응답하는 시각 대화 딥러닝 기술을 개발했다고 7일 밝혔다.

연구팀은 20만장의 사진과 76만개의 질의응답쌍으로 구성된 VQA(Visual Question Answering) 데이터셋(미국 버지니아텍 제공)을 이용해 딥러닝 신경망을 학습시켰다. 다중모달 잔차 신경망 (MRN)으로 명명된 딥러닝 신기술은 음성입출력 기술과 결합된다. 로봇에게 스마트폰을 보여주고 `이것이 뭐야?`라고 물으면 영상을 분석해 `스마트폰이야`라고 답한다. 같은 물건에 대해 `이것은 무슨 색이야`라고 물으면 `검정색이야`라고 하거나 `상표는 뭐지?`라는 질문에 `삼성이야`라고 대답할 수 있다.

지금까지 언어로 질의응답하는 기술은 개발됐으나, 영상을 보여주고 그 내용에 대해서 음성언어로 질문하고 음성언어로 답하는 기술을 개발한 것은 이번이 처음이다.

`VQA 인공지능`은 여러 분야에서 활용될 가능성이 있다. 어린이 학습에 응용할 수도 있고 시각 장애가 있는 사람에게 주변 정보나 소셜 미디어 정보를 알려줄 수 있다. 대용량 방송 정보나 감시카메라 촬영 내용을 조건에 따라 빠르게 검색할 수 있다. 사람과 의사소통할 수 있는 인공지능 비서와 같은 로봇 응용에서도 활용될 수 있다.

장 교수는 “VQA은 다중모달로부터 학습하고 추론한다는 점에서 비약적인 발전이 이뤄졌다”면서 “앞으로 다중모달 기반의 인공지능 개발에서 도약하는 발판이 되길 바란다”고 말했다.

이번 연구는 7월 CVPR 컴퓨터비전 국제학회의 VQA 경진대회에서 4위에 올랐다. 10월 발표된 후속 연구에서 1위를 탈환했다.

연구 논문은 6일(현지시간) 스페인 바르셀로나에서 개최된 제30회 신경정보처리시스템 국제학회(NIPS 2016)에서 발표됐다. NIPS는 인공지능(머신러닝) 분야에서 가장 권위 있는 국제학술대회 중 하나로 올해 인공지능분야에 폭발적인 관심으로 6000여명이 참석해 역대 최대 규모로 개최됐다.