최근 뉴욕대 교수이자 메타(Meta)의 수석 인공지능(AI)과학자인 얀 르쿤(Yann LeCun) 교수가 오픈소스로 AI 발전에 기여한 점을 인정받아 미국 타임지로부터 '2024년 AI분야 가장 영향력 있는 인물'로 선정되었다는 소식이다. 그에 따르면 AI 시스템은 독점적이고 폐쇄적이어서는 안 되며, 사람들은 그러한 독점적인 시스템 하에서는 일을 하지는 않을 것이라는 주장이다. 그의 주장대로 AI 기술은 공개되면 공개될수록 더 많은 신뢰를 얻고 보편화될 수 있을 것이다.
◇오픈소스AI
오픈소스AI라 함은 딥러닝 모델의 소스코드 뿐만아니라 학습용 데이터와 모델, 모델 튜닝을 위한 툴, 그리고 논문 등 각종 자료 등이 공개된 것으로 직관적으로 볼 때 집단지성의 집약체인 오픈소스 소프트웨어(SW)의 철학을 계승하고 있다. 물론 최근에는 딥러닝의 결과로 얻어진 모델만 공개하는 경우가 많기 때문에 오픈소스SW 철학의 관점에서 엄밀히 보면 오픈소스로 보기 어렵다는 의견들도 있다. 이에 따라 일각에서는 오픈소스AI가 아니라 오픈소스모델 또는 오픈모델이라고 부르는 경우도 있다.
하지만, 광의적 측면에서 볼 때 API만 제공되는 패쇄형AI와는 분명 차이점이 있다. 때마침 오픈소스SW를 정의한 국제적 단체인 OSI(Open Source Initiative)에서 오픈소스AI를 정의하기 위한 작업이 진행되고 있다고 하니 그 과정과 결과에 주목해 볼 필요가 있다.
◇오픈소스AI의 가치
오픈소스AI의 정의에 아직 다소 모호한 부분이 있다손 치더라도 오픈소스AI는 특정 벤더에 의한 장벽이나 종속 없이 누구나 AI 기술에 접근할 수 있는 기회를 제공함으로써 기술공유와 인재양성의 효과 뿐만아니라 각종 산업을 신속하게 혁신시킬 수 있다는 큰 가치를 갖고 있다. 예를 들어, 온-디바이스 AI의 핵심인 AI반도체의 경우 공개된 거대언어모델(LLM)을 해당 AI반도체 위에서 신속히 최적화해 탑재시킴으로써 AI반도체의 상품성을 높일 수 있을 것이다.
한편, 오픈소스AI에 대한 우려의 시선도 있다. 예컨대 LLM의 경우 학습용 코드나 데이터가 온전히 개방되지 않았을 경우 개인정보 유출이나 저작권 분쟁, 비윤리성 등 이른바 안전성을 제대로 검증할 수 없다는 우려가 대두된다. 하지만, 그와 유사한 우려 사항은 폐쇄형AI에서도 존재한다. 오히려 이러한 우려사항에 대응하는 방식에 있어서는 집단지성이 동작하는 오픈소스AI 방식이 더 유리하다는 것이 필자의 판단이다.
◇오픈소스AI의 현황
오픈소스AI 중에 가장 먼저 떠오르는 것은 아마 메타에서 공개한 라마(LLaMA)가 될 것이다. 하지만, 생성형 AI 분야만 놓고 볼 때 지난 1년 사이의 변화는 가히 경탄을 금치 못한다. 메타의 라마 공개 이후 알리바바의 큐원(QWen), 프랑스 AI 기업인 미스트랄 AI의 미스트랄(Mistral), TII의 Falcon 등이 줄지어 공개되었으며, 최근에는 트랜스포머의 원조격인 구글에서도 제미나이의 경량 버전이라 할 수 있는 젬마(Gemma)를 공개하였다. 폐쇄형AI의 길을 걷고 있는 오픈AI와 MS에 대응하여 메타와 알리바바 등이 구축하는 전선에 구글이 온디바이스 AI를 위한 소형언어모델(sLLM)이라는 진지를 구축하며 참전한 셈으로 보인다.
한편, AI 전문기업들은 글로벌 기업들이 공개한 모델을 바탕으로 자신만의 데이터와 기술력을 발휘하여 미세조정 결과물을 발표하며 허깅페이스 리더보드의 상단을 경쟁적으로 갈아치우고 있다. 또한 이미 특정분야에서는 GPT-4를 능가하는 솔루션이 출시되었다는 보도들이 나오고 있는 상황이다.
◇골든크로스가 오고 있다.
이러한 동향 속에서 가장 주목받는 부분은 메타가 현재 라마3를 준비 중에 있다는 점과 이와 관련한 메타의 행보라 하겠다. 메타의 최고책임자 저커버그가 지난 2월 28, 29일 양일간 방한하여, 삼성전자와 AI반도체 수급에 대한 논의를 진행했을 뿐만아니라 업스테이지 등 한국어 기반의 LLM 전문 스타트업과도 의견을 주고 받은 것으로 보도되었다. 라마3는 라마2와는 다르게 다양한 국가의 언어 정보까지 포함된 막대한 데이타를 AI반도체 같은 막강한 컴퓨팅 파워로 학습시켜 현존하는 LLM의 한계를 뛰어 넘는 모델이 되지 않을까 추정되는 대목이다.
혹여 라마3가 필자가 예상하는 바와 같이 전개되지 않는다손 치더라도, 적어도 LLM 분야 오픈소스AI의 글로벌 동향을 볼 때 오픈소스AI가 폐쇄형 AI를 조만간 뛰어 넘을 기세로 그 격차를 급격히 좁혀져 오고 있다는 것은 분명한 사실이다. 바야흐로 오픈소스AI의 골든크로스가 다가오고 있는 것이다.
그렇다면 골든크로스의 대세에 동참하고 우리나라의 AI 산업이 이를 디딤돌 삼아 글로벌 리더로서 도약하기 위한 대응방안에는 무엇이 있을까? 그 단초를 국내 생태계 활성화, 리더보드 공신력 강화, 국제협력 전개라는 차원에서 찾아볼 수 있을 것이다.
◇생태계 없는 오픈소스AI는 허상
오픈소스AI에 생명력을 불어 넣는 것은 생태계이다. 우선 오픈소스AI가 제대로 활용되려면 공개된 오픈소스AI에 매료된 개발자들이 긴밀히 소통하며 고급개발자로 성장해 갈 수 있는 커뮤니티들이 활성화 되어야 한다. 또한, 나아가 이들을 행정 및 법률적 테두리 하에서 체계적으로 지원하는 비영리 재단이 활성화 되어야 한다. 우리나라에 이러한 커뮤니티 활동을 후원하는 정책과 기업 마인드가 부족한 것은 참으로 아쉬운 대목이다. 한편, 기업 간의 이해관계에 따라 서로의 재원을 출자하여 설립하는 협의체 또한 적극적으로 권장된다. 결국, 다양한 오픈소스AI 커뮤니티와 재단, 협의체 등의 활동이 활발해 질 때 비로소 강건한 오픈소스AI 생태계가 구축되는 것이다.
한편, 이러한 생태계가 활성화되기 위해서는 저렴하게 사용할 수 있는 컴퓨팅 인프라와 신선한 데이터의 지속적인 수혈이 반드시 필요하다. 때마침 과기정통부가 초거대 AI 확산 생태계 조성 사업을 출범시킨다는 좋은 소식이 있다. 향후 이를 보다 확대하여, 풍부한 컴퓨팅 인프라와 신선한 토종 데이터를 지속적으로 제공함으로써 오픈소스AI 생태계가 만개할 수 있게 되기를 기대한다.
◇공신력이 생명인 오픈소스AI 리더보드
리더보드란 AI 모델을 공유하고 품질측정 결과도 공개하는 플랫폼으로 LLM분야에서 가장 대표적인 리더보드가 허깅페이스이다. 그 외에도 다양한 리더보드들이 존재하며, 한국어에 포커스된 Open Ko-LLM 리더보드도 있다. 하지만 리더보드의 평가항목의 타당성에 대한 학계나 전문그룹의 검증은 여전히 필요하다 하겠다. 또한 평가항목도 표준화하여 공신력을 확보하는 것이 무엇보다 중요한 일이다.
현재 과기정통부에서는 '인공지능 윤리·신뢰성 확보 추진계획'을 마련하고 AI 신뢰성 관련 국내외 표준 제정과 표준지침 수립을 연내 추진할 예정으로 알려져 있다. 골든크로스가 다가오는 현 시점에서 이러한 정부의 노력은 매우 긴요한 것으로 보인다. 오픈소스AI를 활용하는 기업들이 정부가 마련하는 신뢰성 테스트를 통과해 공신력과 품질을 바탕으로 자신감 있게 글로벌 시장에 도전할 수 있게 되기를 기대한다.
◇국제협력을 위한 정부의 역할
때마침 올 5월 서울에서 AI Safety Summit이 열릴 계획인 것으로 알려져 있다. 반드시 이번만이 기회라고는 할 수 없겠지만 이를 기회 삼아 글로벌 오픈소스AI 얼라이언스의 창설을 추진해 볼 필요가 있다. 얀 르쿤 뉴욕대 교수를 비롯한 학계 리더들, 라마3의 공개를 준비 중인 메타, 그리고 구글 등 오픈소스AI 진영의 글로벌 리더들과 한 팀이 되어 오픈소스AI 개발에 나서 보자는 것이다.
그렇게 되면 우리나라로서는 기술과 재원에 있어서 큰 문제가 해결되는 것이고, 우리나라가 보유한 한국어 데이터를 적절한 수준에서 제공한다면 한국어 정보가 이미 반영된 최고 수준의 AI 솔루션을 효과적으로 확보할 수 있을 것이다. 이를 통해 우리나라 AI 산업이 인재 및 자본, 데이터가 비교적 풍부한 대기업에만 의존하는 것이 아니라 중소.벤처기업들이 탄탄한 저변을 형성하는 강인한 AI산업 생태계를 만들어 낼 수 있을 것이다.
◇디지털 모범국가의 진면목 실현
아울러 글로벌 오픈소스AI 얼라이언스는 또 하나의 중요한 의미가 있다. 즉, AI Safety Summit이 추구하는 안전한 AI를 위한 국제적 규범이 국가간 협의에 따른 문서로만 존재하는 것으로는 부족할 것이다. 글로벌 오픈소스AI 얼라이언스는 이에 대한 모범답안을 국제사회에 제시한다는 의미도 있을 것이다. 아무쪼록 이러한 움직임을 우리 정부가 주도적으로 밀고 나아감으로써 우리나라 산업육성의 가속화는 물론 디지털 모범국가 원조국으로서의 실질적인 면모를 비로소 보여줄 수 있기를 기대해 본다.
김두현 건국대학교 컴퓨터공학부 교수 doohyun@konkuk.ac.kr
〈필자〉
KAIST 전산학과에서 박사학위를 취득했고, ETRI에서 책임연구원 근무 후, 2004년부터 건국대학교 컴퓨터공학부 교수로 재직 중에 있다. 한국정보과학회 학회장, 미래창조과학부 민간전문가(CP), 대통령직속 국가과학기술자문위 ICT융합전문위 위원장 등을 역임했다. 과기정통부 주최 공개소스SW공모대전 심사위원장 및 조직위원장, 한중일 공개SW활성화포럼 운영위원 등을 역임하며 우리나라 공개SW 발전 및 정책 발굴에 지속적으로 기여해오고 있다. 현재 오픈소스소프트웨어재단 이사장직을 겸하고 있다.