
국가보안기술연구소(소장 최효진)가 인공지능(AI) 학습용 산업제어시스템(ICS) 보안 데이터셋 'HAI(HIL-based Augmented ICS) 21.03'을 30일 공개했다.
국보연은 지난해 2월 최초 공개한 ICS 보안 데이터셋 HAI 1.0을 보완·확장해 HAI 21.03을 개발했다. HAI 1.0 데이터셋에 감시 포인트와 정상 운영 시나리오를 각각 19개, 5개 추가한 학습 데이터와 함께 최신 보안 위협을 반영한 공격 시나리오 50개를 포함한 검증 데이터를 제공한다.
HAI 21.03은 수작업에 의존한 공격 재현과 데이터 라벨링 한계를 돌파해 데이터 신뢰성과 정확성을 높였다. 실제 사이버 공격과 유사한 공격으로 재현한 데이터셋을 개발, 더 정밀한 성능 평가가 가능하게 했다. 이 같은 내용은 세계 정상급 학회 '유즈닉스 CSET(Cyber Security Experimentation and Test) 2020'에 발표됐다.
HAI 21.03은 지난해 개최한 'ICS 보안 위협 탐지 AI 경진대회(하이콘 2020)'에 먼저 활용됐다. 하이콘 2020에는 3개월간 국내·외 총 888개 팀이 참가했으며 데이터셋에 대한 참가자 의견을 반영해 이날 최종 공개됐다.
국보연은 이번 데이터셋 공개를 통해 우리나라가 ICS 사이버 보안 기술 개발 경쟁에서 한 발 앞서갈 기반을 마련하고 국제 연구 주도권과 경쟁력을 확보하는 계기가 될 것으로 기대했다. 실제 ICS 운영 환경으로부터 데이터를 확보할 수 없어 AI 보안 기술 연구에 어려움을 겪었던 연구자에게도 도움이 될 것으로 내다봤다.
현재 국보연은 HAI 21.03을 개선하고 공격 난이도를 더욱 세분화한 HAI 보안 데이터셋을 새롭게 개발 중이다. 유관기관과 협력해 올해 '하이콘 2021'을 개최한다. 데이터셋 활용과 확산을 유도하고 연구자 간 AI 기술 성능 비교와 기술 교류 장을 마련, 이 분야 연구 생태계 조성과 활성화를 이끈다는 방침이다.
국보연 관계자는 “AI 기반 ICS 보안 연구를 위해서는 양질 데이터셋 확보가 필수지만 활용 가능한 데이터셋이 현저히 부족하고 일부 공개된 데이터셋은 연구 활용에 한계가 있던 상황”이라고 말했다.
그는 “유관기관과 협력해 AI 기반 ICS 보안 연구 활성화와 생태계 조성을 위해 HAI 보안 데이터셋을 개선하고 활용·확산하는 노력을 지속 추진할 것”이라고 말했다.
HAI 21.03은 세계 최대 개발자 커뮤니티 깃허브에 공개되며 구글 데이터셋 검색을 통해서도 쉽게 확인할 수 있다.
오다인기자 ohdain@etnews.com