크라우드스트라이크는 지난 7월 19일 실시간 위협 감지 및 엔드포인트 보호를 위한 '팔콘 센서(Falcon Sensor)'를 업데이트하려다 시스템 충돌이 발생하여 8백50만 대의 마이크로소프트 윈도우 장치에 영향을 미쳤고 전 세계적으로 IT 및 운영 대란이 발생했다.
이번 사고는 사이버 공격이나 악성 소프트웨어에 의한 것은 아니었지만 비즈니스 운영 중단을 방지하기 위해 포괄적이고 신뢰할 수 있는 백업 및 재해 복구 전략의 중요성을 강조했다.
크라우드스트라이크의 즉각적인 글로벌 영향
서비스 중단은 처음 호주에서 감지되었으며 '블루 스크린 오브 데스(BSOD)'가 전 세계 윈도우 장치에 퍼지면서 사용자뿐만 아니라 기업 및 주요 서비스 제공업체에도 큰 혼란을 초래했다. 금융, IT, 제조업 등 다양한 분야에서 중단 보고가 나왔다.
월스트리트저널에 따르면 오후까지 미국에서 약 2600편의 항공편이 취소되었고 전 세계적으로 4200편 이상의 항공편이 영향을 받아 수동 체크인으로 전환해야 했다.
복구 시간 목표(RTO)가 비즈니스 운영에 미치는 영향
사고 이후 크라우드스트라이크는 기술 지원을 제공하고 시스템 복구를 위한 패치를 배포했지만 많은 조직의 시스템이 자동 복구가 불가능하게 돼 IT 관리자들이 안전 모드로 부팅하여 크라우드스트라이크의 문제 업데이트를 수동으로 삭제해야 했다.
마이크로소프트는 다음날 자동으로 문제 파일을 삭제하는 '프로세스 최소화' 솔루션을 도입했지만 여전히 개별 장치를 USB 드라이브를 통해 WinPE로 부팅해야 하는 번거로운 과정이었다.
다운타임은 운영 중단, 생산성 손실, 추가 비용, 준수 리스크 증가, 부정적인 고객 경험 및 기업 평판 손상으로 이어진다.
비즈니스 연속성을 유지하기 위한 강력한 데이터 보호 계획 수립
모든 소스 및 장치를 정기적으로 백업하는 전략을 배포하는 것은 특히 여러 플랫폼이나 도구를 사용하는 기업에 중요하다.
장비 및 시스템 고장은 예측할 수 없어 백업 데이터의 복구 가능성을 지속적으로 테스트하여 재해 복구 계획의 효과성과 가용성을 검증하는 것이 필요하다.
서비스를 가상화하고 가능한 빨리 운영을 복구하여 다운타임을 줄이고 비즈니스의 연속성을 보장해야 한다.
크라우드스트라이크의 경우 한 플랫폼만 영향을 받았다. 모든 데이터, 애플리케이션 및 시스템이 여러 환경에서 복구 및 재설치될 수 있도록 하여 데이터 손실 위험을 최소화할 수 있다.
온사이트 데이터 백업 외에도 오프사이트 백업을 구현하면 데이터 손실 위험을 완화할 수 있다. 크라우드스트라이크 이벤트 동안 오프사이트 클라우드 백업을 배포한 회사는 쉽게 오프사이트 백업 사이트에서 서비스를 재개할 수 있었다.
백업은 데이터 회복력의 핵심
안전한 백업 및 재해 복구 계획을 갖추는 것은 데이터 회복력의 핵심이며 디지털 전환을 추구하는 모든 비즈니스에 중요한 단계다.
크라우드스트라이크 사건은 예기치 않은 상황에서도 연속성을 유지하기 위해 강력한 백업 전략을 수립하고 정기적으로 백업을 테스트하는 것의 중요성을 확실히 보여준다.
구교현 기자 kyo@etnews.com