[데스크라인]ICT 복원력

지난 24일 서울 서대문구 KT 아현빌딩 지하 통신구에서 화재가 발생했다. 서대문구 일대 KT 고객은 유무선 전화는 물론 인터넷과 IPTV를 쓰지 못했다. KT 통신망을 쓰는 ATM과 카드 결제에도 장애가 발생했다. 사흘이 지났지만 복구는 마무리되지 않았다.

이보다 앞서 21일에는 아마존웹서비스(AWS)에서 장애가 발생해 쿠팡, 이스타항공, 암호화폐거래소 등 주요 인터넷 서비스가 중단됐다. AWS에서 기업 시스템을 운영한 기업은 아찔한 84분을 경험했다.

Photo Image
GettyImages

연이은 장애 발생으로 정보기술(IT) 코리아 위상이 휘청거렸다. 한 번은 도메인네임 서버 설정 오류였고, 다른 한 번은 화재였다. 세계 1위 클라우드 사업자도, 국내 기간 통신 사업자도 핵심 인프라 관리에 허점을 보였다. 이런 장애는 초연결 사회에 혼란과 경제 불안정을 초래한다.

현재 해킹을 완전 차단하거나 100% 서비스 연속성을 보장하는 클라우드 서비스는 없다. 화재나 지진 등 예기치 못한 재해에서 자유로운 기업도 없다. 언제든 발생할 수 있는 재난과 장애 앞에서 국가와 기업에 가장 필요한 것은 '복원력'이다. 복원력은 완벽한 시스템이나 서비스가 존재할 수 없다는 점을 인정하고 피해 최소화를 위해 애쓰는 역량이다. 신속하게 장애 발생 이전 상태로 돌아가려는 힘이다.

그동안 주로 해킹 등 사이버 보안 영역에서 복원력 개념을 얘기했다. 복원력은 사이버 보안을 넘어 클라우드 장애, 통신망 화재 등에 적용해도 무리가 없다. 해킹으로 인한 인터넷 및 시스템 장애나 기계 오류, 자연 재해로 말미암은 서비스 중단도 미치는 여파는 동일하기 때문이다.

복원력은 철저한 준비와 훈련이 있어야 확보된다. 장애나 재난이 발생하기 전에 미리 이에 대한 대응 시스템을 세우고 훈련을 한 조직만이 골든타임 안에 복원에 성공한다. 원상 복구까지 걸리는 시간 단축 기술이 중요하다. 멀티 클라우드 사용 등으로 이중화 구조를 확보하는 조치 등이다. 화재 등의 재난에 대비, 통신망 이중화가 필요하다. 통신구에 이상 온도나 냄새 등을 감지하는 센서를 달아 화재 발생 시 최대한 빨리 대응하는 식이다.

기술만 갖춘다고 해서 복원이 빨리 되는 것은 아니다. 조직도 장애·재난 발생 시 일사분란하게 움직여야 한다. 위기 상황 발생 시 컨트롤 타워 책임과 역할을 분명히 규명해야 한다. 컨트롤 타워 지시에 맞춰 시간과 조직별로 해야 할 일을 수행한다. 제도도 갖춰야 한다. 복구 과정 절차와 매뉴얼을 마련해서 실행해야 한다. 평상시 위기 상황을 가정한 복구 훈련도 실시해야 한다. 막상 장애나 위기 상황이 발생했을 때 훈련 안 된 조직은 우왕좌왕하기 쉽다. 훈련된 조직은 위기 상황이 발생하더라도 우선순위에 따라 일사분란하게 움직인다.

IT 시스템이나 통신망 복원력은 우리 몸의 면역 체계와 같다. 병에 걸리는 것은 면역 체계가 완전히 차단하지 못한다. 그러나 상황이 발생했을 때 신속하게 극복될 확률은 높다.

자율주행차, 스마트홈, 스마트시티 시대가 다가온다. 단순한 시스템 장애나 화재 사고를 넘어 대형 태풍, 지진, 정전, 사이버테러 등 초연결 사회를 위협하는 요소는 많다. 클라우드 장애와 통신구 화재는 지금보다 더 큰 파장을 몰고 올 수 있다. 몇 개 기업과 지역을 넘어 국가가 마비된다. 초연결 시대를 맞아 복원력 확보는 선택 아닌 필수다.

Photo Image

김인순 SW융합산업부 데스크 insoon@etnews.com


브랜드 뉴스룸