[ET단상]인공지능 편향성 해결의 실마리 '데이터 품질'

발행일 : 2021-03-17 16:00 업데이트 : 2021-03-17 13:18 지면 : 2021-03-18 26면

인공지능(AI) 기술이 실생활 전반에 하나씩 적용되면서 '편향성' 논란도 뜨겁다. 아마존의 AI 직원 채용이나 마이크로소프트의 AI 챗봇 '테이' 사례에서도 알 수 있듯이 편향성은 AI 산업이 안착하기 위해 반드시 해결돼야 하는 핵심 과제다.

여러 방안이 있겠지만 AI 편향성 문제 해결의 기본 실마리는 '데이터 품질'에 있다. 학습되는 데이터에 따라 AI의 정확도와 성능이 결정되는 만큼 신뢰성 높은 양질의 데이터를 최대한 확보하고 데이터 구축과 모델 학습, 배포 전 단계를 아우르는 품질 관리 모니터링이 가능하다면 AI의 편향성을 획기적으로 줄이는 것이 가능하다.

지난해 8월 데이터 3법 시행 이후 AI 기업들도 연구 개발 용도로 비식별화 데이터를 사용할 수 있게 됐으나 올해 초 AI 챗봇 편향성과 윤리적 문제가 터지면서 업계는 물론 사회 전반에까지 엄청난 파장이 몰려왔다. 그 결과 AI 데이터 품질 및 정제, 선별 등에 대한 가이드와 각종 규제안이 나오고 있다. 관련 업계에서는 'AI 윤리 준칙'을 만들어 발표하는 등 AI의 편향 문제와 윤리 문제에 대해 성찰하고 이를 막기 위한 구체적인 실천 방안을 마련하기 시작했다.

중소기업이나 스타트업들은 단독으로 AI 모델 개발을 위한 데이터를 충분히 확보하기 어려울 뿐만 아니라 가명 처리 및 데이터 정제를 할 여력도 충분치 않은 것이 사실이다. AI 개발은 크게 데이터 구축, 모델 개발 및 훈련, 모델 배포의 3단계로 구성된다. 이 가운데 데이터 관련 업무가 차지하는 비중이 80% 이상이다. 데이터를 수집, 가공, 검수하는 라벨링 작업에 매우 많은 리소스가 필요하다. 그래서 데이터 댐과 같이 공공의 목적으로 활용할 수 있는 학습용 데이터를 마련하는 것이 필요하다. 공공 학습용 데이터 구축 시에도 데이터의 균형성 점검 및 가명 처리 등 작업을 철저하게 수행하는 것이 중요한 것이다.

정부는 공공 학습용 데이터의 중요성을 일찍이 파악해 AI 학습용 데이터 구축을 디지털 뉴딜의 핵심이라 강조하고 연간 수천억대 예산을 편성해서 집행하고 있다. 그런데 사업 초반에 데이터의 절대적인 양을 늘리는 데 집중하다 보니 실제 활용하기 어려운 저품질 데이터도 많이 쌓이게 됐다. 불량 데이터로 학습된 AI는 원하는 성능을 달성할 수 없을 뿐만 아니라 편향적이고 위험할 수도 있다. 이 상황을 다시 바로잡기 위해서는 막대한 시간과 비용이 재투자돼야 하는데 이는 데이터 댐 구축 프로젝트의 지연과 인공지능 산업의 경쟁력 저하로 이어질 수 있다.

이처럼 사회적인 여러 이슈와 저품질 데이터의 활용성에 대한 의문점이 제기되면서 데이터 품질에 대한 기준 및 검수 과정은 더욱 강화되고 있다. 사업 수주 후 납품한 데이터 품질이 수준 이하인 경우 해당 기업에는 재작업과 페널티를 부여하고 있으며, 데이터 정의와 설계 단계부터 잘못된 경우 수집·가공·검수 등 모든 과정을 처음부터 진행하는 사례도 종종 발생하고 있다.

한편 AI 산업 내 데이터 품질 관리가 주목받으면서 알고리즘 편향성을 모니터링하고 예방할 수 있는 MLOps(Machine Learning Operations) 플랫폼에 대한 수요도 급증하고 있다. 데이터 플랫폼은 이미지·비디오 등 학습용 데이터 구축 과정을 실시간으로 모니터링하고, 구축된 데이터의 품질 검수에도 활용되며, 궁극적으로 특정 성향의 데이터가 과도하게 학습되는 것을 방지해서 편향성을 효과적으로 막아줄 수 있기 때문에 데이터 사이언티스트나 엔지니어가 많이 사용하고 있다.

AI 편향성이라는 문제에는 명확한 정답이 없다. AI 기업과 개발자들이 스스로 공정성과 객관성을 유지할 수 있도록 최선을 다해야 한다. AI는 좋은 품질의 데이터로 학습시켜서 사용한다면 노동 생산성을 급격히 향상시켜 생활 환경을 개선하는 데 많은 도움을 준다. 하지만 잘못된 의도와 편향적 데이터를 기반으로 만들어진다면 우리 생존을 위협할 수 있는 위험한 무기가 될 수도 있다. 양면성을 띤 AI가 4차 산업혁명 시대에 혁신적인 산업으로 안착하기 위해서는 AI 기업 및 개발자들부터 더 큰 투명성과 책임감·윤리의식을 지녀야 하고, AI 개발 과정에서도 이를 예방할 수 있는 기술적 조치에 최선을 다해야 한다는 것을 기억하자.

김현수 슈퍼브에이아이 대표 hk@superb-ai.com