금융 특화 '한글 말뭉치' 공유…생성형 AI 개발 돕는다

금융위, 6월까지 1만2600건 무료 제공
전문지식 학습·윤리 평가 지원
환각·편향 문제 대폭 해소 기대

Photo Image
금융위원회가 주최하고 한국핀테크지원센터가 주관한 '코리아 핀테크 위크 2024'에서 카카오페이가 인공지능(AI) 주식봇 서비스을 전시했다. 김민수기자 mskim@etnews.com 2024.08.27

금융위원회가 '금융 특화 한글 말뭉치'를 제공한다고 30일 밝혔다.

모든 금융회사는 31일부터 금융결제원 데이터 공유 플랫폼을 통해 말뭉치를 다운로드 받을 수 있다. 금융위는 2025년 6월 말까지 진행하는 시범사업 기간에 말뭉치를 무료로 제공할 예정이다. 금융회사 말뭉치 조기 활용을 촉진하고, 이용 기관 경험과 의견을 확보한다.

금융 특화 한글 말뭉치는 금융 분야 전문지식을 인공지능(AI) 모델이 가공·처리·분석할 수 있는 형태로 모은 대규모 한국어 언어자료 집합이다. 국내 금융권에 맞는 AI 서비스 개발을 위한 필수 인프라다.


그간 금융회사들은 해외에서 일반 사용자들을 위해 개발한 챗 GPT 같은 상용 생성형 AI나 오픈소스 AI(LLaMA3.3, 엑사원 등)를 활용해 챗봇, 뉴스 요약, 번역을 제공했다. 이들은 한국어로 된 금융 용어, 우리나라 금융 법규 등 전문 데이터가 부족해 금융에 특화한 업무를 수행하는 것이 어려웠다.

금융위는 금융 전문지식 학습과 답변 정확도 제고, 성능과 윤리 평가 등에 활용할 수 있도록 다양한 형태로 금융 특화 한글 말뭉치를 제공한다.

우선 사전학습용 말뭉치는 금융감독원, 은행연합회, 금융연수원의 금융용어 사전과 일반지식 자료를 활용했다. 금융 특화 AI 서비스 개발을 위한 추가학습용 말뭉치는 국내 금융정책·제도 설명자료, 금융 법규·가이드라인 및 보험연수원 기초 연수자료를 사용해 구축했다. AI 모델에 사전학습용 데이터를 적용할 경우, 한국어로 된 금융 용어에 대한 이해력과 국내 금융제도·법규 전문성을 향상시킬 수 있다.

또 AI 모델이 외부 최신 정보, 전문 데이터를 참조해 보다 정확한 답변을 도출하도록 하는 검색증강생성(RAG)용 말뭉치도 지원한다. 검색증강생성용 말뭉치는 '금융소비자보호법', '전자금융거래법' 등 관련 조문을 활용해 마련했다. 금융권에 활용되는 AI가 관련 제도나 법규 최신 개정 내용이 반영되지 않은 답변을 도출하는 경우 이용자 권리를 침해하거나 재산상 손해를 입힐 수 있어, 적기에 현행화된 검색증강생성(RAG)용 말뭉치를 활용하는 것이 필수다.

마지막으로 AI 모델의 금융 지식, 추론능력, 잠재적 유해성을 평가하기 위한 평가지원용 말뭉치를 지원한다. 생성형 AI가 허구 정보를 생성하는 '환각(Hallucination)'이나 성별, 인종 등에 대한 선입견을 학습하는 '편향(Bias)' 문제를 상당부분 해소할 것으로 기대된다.

이번에 제공하는 금융 공통분야 말뭉치는 총 1만2600건, 약 45GB 이상 규모로 사전학습용 6700건 추가학습(Fine-tuning)용 1100건 검색증강생성(RAG)용 3800건 평가지원용 1000건으로 구성돼 있다.

금융위원회는 이번 시범사업 과정에서 제기되는 금융회사 추가 수요와 의견을 반영해 올해 하반기까지 금융 공통분야 말뭉치 유형과 규모를 확대한다. 내년부터는 금융 업권별 특화 말뭉치를 지원할 수 있도록 원천 데이터 보유기관 및 유관기관과 지속 협의할 계획이다.


김시소 기자 siso@etnews.com

AI

주요 행사

브랜드 뉴스룸