AWS, SK텔레콤과 한국어 해석 필요한 앱 개발 지원

Photo Image
아마존웹서비스 로고

아마존웹서비스(AWS)가 SK텔레콤과 협력해 한국어 GPT-2 모델(KoGPT-2)을 개발했다. 한국어 해석이 필요한 애플리케이션(앱) 개발이 보다 쉬워질 전망이다.

GPT-2는 기계학습 알고리즘을 활용해 입력된 샘플 텍스트를 분석한 후 구문론적, 문법적, 정보적 일관성을 갖춘 텍스트로 생성하는 자연어 처리(NLP) 모델이다. KoGPT-2는 한국어로 학습된 오픈소스 기반 GPT-2 모델이다. 일반적인 질문에 대한 응답 생성, 문장 완성, 챗봇 등 한국어 해석이 요구되는 광범위한 앱 기계학습 성능을 향상한다.

개발자는 KoGPT-2를 직접 이용하거나 추가 학습을 통해 보다 적은 자원과 NLP 지식으로도 대규모 언어 모델 학습 같은 NLP 업무를 보다 빠르게 처리할 수 있다. 챗봇 구축, 텍스트 감성 예측, 텍스트 분석 기반 응답 생성에 쓰일 수 있다. 노년층을 위한 챗봇, 코로나19 관련 가짜뉴스 차단을 위한 검색 엔진 등 한국어 기반 앱 개발에 기여할 것으로 기대된다.

AWS와 SK텔레콤은 NLP 전문성과 대규모 학습 경험을 바탕으로 KoGPT-2 모델을 학습시켰다. SK텔레콤 한국어 데이터셋을 활용, 고도로 효율적인 환경에서 한국어 모델을 개발했다. AWS 기계학습 가속화 프로그램인 아마존 머신러닝 솔루션즈 랩과 AWS 딥러닝 엔지니어링팀은 SK텔레콤과 아마존 FSx 포 러스터 등 AWS 서비스를 활용해 효율적인 대규모 학습 환경을 구축하고 조율했다. AWS 엔지니어링 팀은 글루온NLP를 활용해 학습을 가속화했으며 더 적은 그래픽 처리 장치(GPU)로 더 빠르게 KoGPT-2 모델을 학습시킬 수 있었다.

미셸 리 AWS 아마존 머신러닝 솔루션즈 랩 부사장은 “KoGPT-2 같은 고급 언어 모델 개발을 위해서는 많은 학습 데이터와 컴퓨팅 자원, 자연어 처리에 대한 전문 지식이 필요하다”면서 “AWS는 고성능 컴퓨팅 기반 기계학습 서비스를 통해 한국 고객이 문제 해결과 디지털 혁신 가속화, 고객 서비스 강화, 비즈니스 최적화, 새로운 고객 경험 창출을 달성할 수 있도록 지원하겠다”고 말했다.

KoGPT-2는 수정 MIT 라이선스 아래 SKT AIX 센터 깃허브 저장소에서 이용할 수 있다. 관심 있는 개발자는 모델과 관련 소스를 다운로드해 프로젝트에 사용, 수정, 적용할 수 있다.


오다인기자 ohdain@etnews.com

브랜드 뉴스룸