[에듀플러스]이공계 진로 특강〈5〉멀티모달 인공지능의 대모험 “다양한 모달 동시 처리하고 다룰 수 있는 능력…인간과 기계 사이 상호작용”

발행일 : 2023-12-12 12:00 업데이트 : 2023-12-10 16:19

국립중앙과학관·에듀플러스 공동 이공계 특강 지상중계
이용 한국과학기술정보연구원 인공지능 주제 강연

〈연재순서〉

①2035년 유망 직업·의공학과 빅데이터

②슈퍼컴퓨터를 활용한 공학 시뮬레이션 세계

③위성군단을 이용한 디지털지구 만들기 대작전

④사이버 세상의 보이지 않는 인프라, 인터넷 기술

⑤멀티모달 인공지능의 대모험:세상 밖으로 나아가다!

⑥4차산업혁명의 핵심기술인 이차전지 기술

⑦초고성능 컴퓨팅으로 풀어나가는 은하 형성의 수수께끼

⑧블랙홀을 추적하는 천문학자들

⑨대한민국 달 궤도선 '다누리'-개발과 여정

⑩핵융합과 1억도 플라즈마의 비밀

“챗지피티(GPT)는 대화가 가능한 생성형 인공지능(AI) 모델로, 주어진 텍스트에 적절한 문장을 만들어 낼 수 있도록 훈련됐어요. 챗지피티 학습 방식은 여러 문서 문장을 읽고 다음 단어를 예측하는 훈련부터, 주어진 질문에 적절하게 답을 하는 방식까지 다양해요. 방대한 양의 도서, 웹 등으로 학습해 전문가 수준의 지식을 기반으로 우리가 원하는 방식으로 답변을 만들어 줄 수 있죠. 이를 기반으로 생성형 인공지능은 설명 요청, 장문 요약, 번역, 코딩 작업, 소설 창작 등 다양한 분야에서 활용되고 있어요. 하지만 아직 사람과 같은 수준은 아니죠. 그렇다면 인간과의 차이점은 무엇일까요.”

이용 한국과학기술정보연구원 책임연구원의 말이다. 이용 연구원은 최근 빠르게 발전하는 멀티모달 인공지능 기술의 트렌드에 대해 이야기 했다.

챗지피티를 기본 기능 관점에서만 보면, 아직 주로 텍스트로만 소통이 가능한 상황이다. 문장으로만 학습했기 때문에 문장으로만 답을 할 수 있다. 사람처럼 시각, 청각, 후각, 촉각, 미각과 같은 감각에 대해 느껴본 적도, 표현해 본 적도 없다. 이 같은 한계를 극복하기 위해 새로운 형태의 멀티모달 AI가 등장했다. 인간처럼 보고, 듣고, 말하고, 느끼고, 행동하고, 소통하는 것을 AI가 배워가고 있다. 최근 챗지피티도 문서와 그림을 주고 이를 바탕으로 대화를 할 수 있으며, 원하는 그림을 그려줄 수 있는 형태로 발전하고 있다.

멀티모달에서 말하는 '모달'은 Modality에서 온 말로, 정보의 형태와 유형을 말한다. 시각정보인 영상, 음성, 소리, 텍스트 등이 모두 서로 다른 형태의 모달로 간주된다. 멀티모달은 다양한 모달을 동시에 복합적으로 처리하고 다룰 수 있는 능력을 말한다. 우리는 매일의 생활 속에서 보고, 듣고, 피부로 느끼는 과정을 통해 다양한 환경을 이해하고 생존한다.

멀티모달 AI 예로는 이미지-to-텍스트 기술이 있다. 사진을 주면 그 내용을 이해한 것처럼 문장으로 설명을 해주는 기술이다. 우리가 매일 찍는 수많은 사진에서 손쉽게 원하는 사진을 키워드로 찾을 때도 유용하며, 시각장애를 가진 분들에게도 도움이 될 수 있는 기술이다.

구글에서 개발 중인 Med-PaLM 모델은 의료분야를 위한 AI다. 텍스트와 영상으로 된 의료기록을 학습해 다양한 증상에 대한 텍스트 질문과 엑스레이 사진에 대해 의견을 제시할 수 있는 수준으로 발전한다.

분명히 이러한 멀티모달AI는 사람과 AI, 로봇과 같은 기계 간의 상호작용을 향상시키고, 다양한 상황에 대처할 수 있는 능력을 부여할 수 있게 될 것으로 보인다. 우리 삶 속에 AI를 꺼내 우리에게 더 많은 도움을 주고, 친구가 될 수 있는 형태로 만들어 갈 수 있다.

이용 연구원은 “인공지능은 멀티모달 AI로 발전하며 실제 세상 밖으로 나오려고 준비를 하고 있다”며 “미래에 직접적으로 큰 영향을 미치는 이러한 기술의 흐름을 잘 이해하고, 올바르게 사용해 변화하는 세상에 적응할 수 있어야 한다”고 강조했다.