한국인터넷진흥원(KISA)이 정보보호 기술 연구·검증 등 양질 데이터 활용을 위한 '정보보호 R&D 데이터 챌린지'를 올해 이어 내년 점진 확대한다. 악성코드 탐지, 안드로이드 악성 애플리케이션(앱) 탐지 등에 이어 자율주행차 도난탐지, 개인정보비식별 등 다양한 영역으로 대회 경연 분야를 확장한다.
29일 KISA는 데이터셋 활용을 위해 '정보보호 R&D 데이터 챌린지' 대회를 점진 확대 개최한다고 밝혔다. 정보보호 R&D 데이터 챌린지는 R&D 데이터셋을 활용해 정보보호기술 성능 등을 경연하는 대회다. 올해 2회를 맞는 대회에서는 AI 기반 악성코드 탐지, AI 기반 취약점 자동탐지, AI 기반 안드로이드 악성앱 탐지 등 4개 트랙에서 최고를 겨룬다. 지난해 대회 총상금 2000만원에서 올해는 500만원 늘어난 총 2500만원 상당 상금을 지급한다. 올해는 대학(원)생 대상 별도 AI 기반 악성코드 탐지 트랙도 진행한다.
최근 데이터 중요성은 어느 때보다 크다. 정보보호 기술 연구와 검증을 위해 양질의 데이터 확보는 필수다. 인공지능(AI)시대, 기계 학습에 필요한 데이터는 AI 기술 품질을 좌우한다.
해외에서는 보안영역에서 데이터가 중요해지면서 정부가 나서 데이터를 공유한다. 미국은 국토안보부(DHS)지원으로 사이버 보안 연구에 필요한 데이터 1페타바이트(PB)이상 공유한다. 학계·산업계·비영리단체·정부기관과 7개 국가가 참여해 데이터셋을 구축한다. 일본은 2008년부터 기관 등이 보유한 악성코드 데이터를 공유해 분석결과 등을 경쟁하는 대회를 연다. 이외 구글(2017), 마이크로소프트(MS, 2015), 삼성(2018) 등은 다양한 데이터 공유 장을 만든다.
강필용 KISA 정보보호R&D기술공유센터장은 “위협정보, 과거 해킹사고 데이터 등 실제 사이버 해킹 등 사건·사고 데이터 공유는 어려운 것이 현실”이라면서 “AI시대 양질의 데이터, 알고리즘 확보를 위해 공공에서 위협정보를 공유하고 이를 바탕으로 데이터 챌린지 대회 등을 통해 활용 범위를 넓힌다”고 말했다.
KISA는 내년 데이터셋 챌린지를 확대 시행, 데이터셋 공유 확산에도 힘쓴다. 내년 대회는 올해 성과를 바탕으로 개인정보 비식별화 등 다양한 영역으로 확대한다는 계획이다. 현재 데이터셋 공유 웹페이지 접근성 저하와 공유목록 확대가 어려운 점 등을 고려해 이를 개선하는 방안도 내놓는다.
강 센터장은 “올해 데이터셋 챌린지에서는 AI뿐 아니라 자율주행 관련 트랙을 운영하는 등 현존하는 사이버 위협을 해결하는 방안에 초점을 맞췄다”면서 “데이터셋 공유는 저변확대를 위해 편리성을 개선하고 악용 방지를 위한 절차를 철저하게 지킬 예정”이라고 말했다.
정영일기자 jung01@etnews.com