[전화성의 기술창업 Targeting]55. 인공지능 시대, 딥러닝 학습데이터 공급 시장이 열린다

Photo Image

55. 인공지능 시대, 딥러닝 학습데이터 공급 시장이 열린다

필자가 인공지능(AI) 사업을 시작한 2000년만 하더라고 학습을 위한 데이터 수집은 AI 엔진 회사 몫이었다. AI 엔진을 만들던 SL2는 음성 인식 데이터 확보를 위해 서울지하철 2호선 이대역 근처에 별도의 녹음실과 ARS 녹음장비를 운영하기도 했다. 그러나 요즘은 시장이 확연히 구분된다. 구글·애플·네이버·카카오·바이두·텐센트·마이크로소프트(MS) 등 정보기술(IT) 대기업이 딥러닝 기반 엔진 개발에 몰두하고, 신생 스타트업이 크라우드 아웃소싱 형태로 학습을 위한 데이터를 구축해 납품하는 시장이 열리고 있다. 국내에서도 일찌감치 AI 시장 성장에 발맞춰 학습 데이터 공급 플랫폼을 만들어 성장하고 있는 스타트업이 있다. 이 한국 스타트업은 국내뿐만 아니라 세계 시장으로도 데이터를 공급하며 글로벌 경쟁력을 확보해 나가고 있다.

특히 자동 번역 시장에서 학습 데이터 공급 시장이 열리고 있다. 우리에게 널리 알려진 AI 번역 서비스 제공 업체는 구글, 네이버, 카카오 등이다. 이들 서비스마다 번역 값이 다르게 나오는 이유는 인공신경망 기계 번역 기술력 차이가 아니라 각 번역 서비스 제공 기업이 확보하고 있는 언어 데이터의 양과 질 차이 때문이다. 인공신경망 번역 서비스 알고리즘 설계를 위해서는 100만쌍 이상 코퍼스가 기본으로 필요하며, 세부 영역별로 번역 값을 정교화하기 위해서는 더욱 많은 양의 코퍼스가 요구된다. 그렇기 때문에 AI 번역기를 제작하는 업체는 기계학습에 활용할 문장 확보에 큰 비용을 투자하고 있다. 현재 인공신경망 번역기, AI 비서 산업이 급부상하고 있기 때문에 텍스트·음성 등 언어 데이터를 필요로 하는 시장이 급성장하고 있다. 특히 최근 유튜버 번역 수요도 증가하고 있는 가운데 유튜브 크리에이터가 국내 사용자만을 대상으로 하는 건 성장에 한계가 있어 해외 사용자로 눈길을 돌리고 있다. 이때 필요한 자막 서비스 시장이 주목받고 있다.

학습 데이터 공급 스타트업 가운데 가장 주목받는 스타트업은 '플리토'다. 플리토는 최근 11억2500만원에 공공 데이터 구축 사업을 수주했다. 플리토 플랫폼 기반으로 사업비는 기존 구축 가격의 20%로 줄인 반면에 데이터 양은 5배 이상 확보, 기술력을 인정받았다. 플리토는 5년 전부터 집단지성 번역 플랫폼을 활용, 양질의 언어 데이터를 축적하고 있다. 최근에는 누적된 언어 데이터를 NTT도코모, 바이두, 텐센트, MS, 익스피디아, 홈어웨이 등 글로벌 기업에 판매함으로써 세계 시장 속에서 AI 학습 데이터 공급 전문 기업으로 자리 잡아 가고 있다.

두 번째 스타트업은 '크라우드웍스'다. 크라우드웍스는 네이버D2 스타트업팩토리로부터 종잣돈 투자를 유치하고 TIPS에 선정된 이후 1년 만에 시리즈A 투자 유치도 성공했다. 특히 주주사인 네이버에 학습 데이터를 판매, 수입원을 안정시켰다. 크라우드웍스 역시 개방형 크라우드 소싱을 활용해 AI 기술 고도화를 위한 학습 데이터를 생산 및 가공하는 플랫폼이다. 2017년 4월 설립 이후 참여자 6000명으로부터 연간 800만건 이상 학습 데이터를 생산하고 있으며, 고객사 30여곳을 확보했다.

마지막으로 소개할 스타트업은 지난해 말 KAIST E5에서 최우수상을 받은 '셀렉트스타'다. 셀렉트스타는 모바일 상에서 수집이 가능한 비전 학습용 데이터에 집중하고 있다. 모바일 사용자를 통한 분업화된 AI 학습 데이터 생산 플랫폼과 수집·가공된 데이터 전수 검사를 할 수 있는 AI 학습용 데이터 생산 시스템으로, 정부 부처 통합 창업경진대회인 '도전! K-스타트업 2018'에서 특별상을 받으면서 많은 관심을 받고 있다.

전화성 씨엔티테크 대표이사 glory@cntt.co.kr


브랜드 뉴스룸