크라우드웍스가 법적 리스크가 없는 고품질 데이터셋 유통·판매 사업을 본격 개시한다.
크라우드웍스가 판매하는 데이터셋은 라이선스를 확보한 산업 특화 데이터셋이다. 이 데이터셋은 저작권·개인정보 침해 등 법적 리스크가 없어 기업이 활용하기에 용이하고, 검증된 전문가가 구축해 전문성과 신뢰성이 높다고 회사는 설명했다.
데이터셋에는 △자사 소형언어모델(SLM) 웍스원 데이터셋 △광고 분석 △건강검진 결과 △전문 지식 Q&A △기업 정보 △도서 △뉴스 기사 등이 포함됐다.
웍스원 데이터셋은 숫자, 문장, 글 등 기업에서 자주 사용하는 답변 형식이나 동사, 문체 등 AI가 기업이 선호하는 표현으로 답할 수 있도록 설계된 데이터셋이다. 대기업에서 15년 이상 기획업무에 종사한 베테랑 기획자들이 직접 데이터셋을 만들었다.
광고분석 데이터셋은 국내 광고 1만여 건의 광고 데이터를 분석해 만들었다. 광고 정보, 타깃, 목표, 카피 표현방식, T&M 등 직접 구축한 메타 데이터가 담겼다.
이 외에도 △240개국 3억개 이상 최신 기업 정보를 포함하는 기업정보 데이터셋 △장르와 카테고리별 도서(e-book) 데이터셋 △1만5000여건의 건강검진 결과 데이터셋 △5억건 이상 뉴스 기사 데이터셋 △16개 분야별 전문가가 생성한 전문지식 Q&A 데이터셋 등을 구매할 수 있다.
크라우드웍스는 모빌리티, 테크, 법률, 교육, 미디어 등 다양한 특화 데이터 라인업을 확대해나갈 계획이다.
김우승 크라우드웍스 대표는 “AI 프로젝트가 성공하려면 데이터의 양적 확대보다 품질에 집중해야 한다”며 “양질의 데이터가 부족한 상황에서 신뢰할 수 있는 데이터셋 공급을 통해 기업의 AI 프로젝트 성공을 돕고 건강한 AI 생태계를 만들어갈 것”이라고 말했다.
현대인 기자 modernman@etnews.com