“데이터 품질이 인공지능(AI) 성능을 좌우합니다.”
김세엽 셀렉트스타 공동대표는 AI 개발 과정에서 직접 데이터를 수집, 라벨링(Labelling) 작업을 하면서 데이터 중요성을 몸소 깨달았다며 이같이 말했다. AI는 사람이 수작업한 데이터를 통해 기능과 지능을 얻게 된다. 이 때문에 양질의 데이터 없이 좋은 AI 개발은 불가능하다. AI 개발자로선 데이터에 대한 고민이 깊어지는 이유다.
AI 개발자의 고민 해결을 돕기 위한 솔루션이 '캐시미션'이다. 셀렉트스타가 2019년 출시한 캐시미션은 AI 학습데이터 수집·가공 플랫폼으로, 약 20만명의 작업자를 보유한 크라우드 소싱 방식으로 운영된다. 불특정 다수의 작업자가 사진·영상·문자 등 비정형 데이터를 가공하고 결과물이 검수를 통과하면 현금 보상을 받는 식이다. 셀렉트스타는 불특정 다수의 참여자가 데이터를 가공하더라도 품질을 유지할 수 있는 기술을 갖췄다.
김 대표는 “작업 중간중간에 '함정 문제'를 넣어 작업자를 테스트한다”며 “숙련된 작업자 중 3명 이상을 검수자로 선발해 결과물에 대한 전수 교차 검수를 수행한다”고 말했다. 이어 “수학적 알고리즘을 활용해 검수자 신뢰도도 판별한다”면서 “우수한 검수자로 운영하면 데이터 품질도 같이 향상된다”고 덧붙였다.
셀렉트스타 데이터를 활용한 제품은 우리 생활 곳곳에 들어가 있다. 일례로 무선 이어폰 재생·정지·볼륨 조절 등 탭(Tap) 명령어는 셀렉트스타가 가공한 데이터를 활용했다. 또 음악 스트리밍 서비스의 개인 맞춤 콘텐츠 추천 알고리즘 데이터, 개인 취향 맞춤형 와인 추천 알고리즘 데이터, 보일러 유지보수 관리를 위한 계기판 데이터 등 프로젝트도 수행했다. 기술력을 인정받아 삼성전자·삼성SDS·네이버·SK텔레콤 등 대기업부터 업스테이지·마크비전 등 스타트업까지 약 200개 기업을 고객사를 두고 있다. 누적 투자액은 130억원, 연 매출은 50억원에 달한다.
김 대표는 셀렉트스타 기술력이 객관적으로도 입증된다고 강조했다. 셀렉트스타는 국내 대표 AI 벤치마크 데이터셋인 클루(KLUE)와 코쿼드(KORQUAD) 2.0 구축에 모두 참여한 유일한 회사다. KLUE는 AI 분야 최대 규모 학회인 '뉴립스'(NeurlIPS·인공신경망학회)에 논문이 실리기도 했다. 코쿼드 2.0은 셀렉트스타가 100% 구축했다.
김 대표는 “양질의 데이터 품질 관리를 위한 내부 시스템과 기술을 보유한 점이 가장 큰 강점”이라면서 “AI 개발사는 수많은 레퍼런스를 보유한 셀렉트스타를 찾을 수밖에 없다”고 말했다.
셀렉트스타는 향후 AI 데이터 가공에서 나아가 학습데이터 툴(Tool)을 개발, AI 개발사와 지속적인 협력체계를 구축하겠다는 계획이다.
김 대표는 “AI 개발자들이 학습데이터 툴을 통해 부족한 부분을 확인하고 보완하기 위한 데이터를 요청하는 과정을 거치게 된다”면서 “AI 개발자들이 효율적으로 일할 수 있도록 학습데이터 플랫폼으로 발전할 것”이라고 말했다.
조재학기자 2jh@etnews.com