[글로벌리포트] 시스템 사고 터지면 `천문학적 손실`

Photo Image
김성환 액센츄어코리아 SI&T그룹 상무
관련 통계자료 다운로드 비즈니스 복구 전략 vs 비즈니스 손실(시간)

점점 강화되는 회계 규제, 복잡해진 IT시스템, 오랫동안 사용해온 레거시 시스템 등은 우리가 예측하지 못한 IT 사고의 위험성을 배가시키고 있다. 통상적인 수준의 표준 백업 정책 및 시스템으로는 더 이상 이러한 변화에 충분히 대응하기 어려워졌다. 현재 필요한 것은 문제가 발생했을 때 재빨리 복구할 수 있는 ‘속도’를 갖추는 일과 충분한 모의 훈련이다.

#초기 대응의 중요성 증대

매주 월요일 밤에 이뤄지는 한 글로벌 은행의 정기적인 시스템 배치 처리 시간 동안 핵심업무의 백오피스 시스템에서 오류가 발생했어도 초기 몇 시간 동안에는 어느 누구도 당황하지 않았다. 그러나 은행의 멀티테라바이트 데이터베이스(DB)가 훼손됐다는 사실이 명확하게 밝혀지면서 상황은 곧 달라진다. 은행의 백업시스템을 가동시켜 보지만, 백업시스템 역시 훼손된 DB를 복사했기 때문에 제대로 작동하지 않는다. 진짜 위기가 시작된다. IT 애플리케이션 팀과 모든 관련 부서는 다른 사안을 제쳐두고 4시간 안에 해결할 것을 목표로 시스템 복구를 시도하지만 근본 원인 파악도, 신속한 복구도 이루어지지 않는다. 하루가 지나자 관련 팀이 모두 모여 해결책을 모색해 보지만, 미숙한 대처는 상황을 더욱 악화시킬 뿐이라는 사실만 깨닫게 될 따름이다.

은행은 각종 거래들을 중단 없이 계속해야 하는 상황이다. IT팀은 먼저 DB가 훼손되지 않은 깨끗한 백업 버전을 찾아야 했다. 그리고 나서 문제 발생 시점보다 거의 이틀 전에 DB훼손이 발생했다는 사실을 파악했다. 또 깨끗한 백업 버전이 훼손되지 않았다는 것을 확인하기 위한 유일한 방법은 36시간이나 걸리는 체크 프로그램을 가동하는 것뿐이었다.

그 다음 이 팀들은 시스템의 오류가 발생한 시점까지와 그 이후 며칠간 추가로 일어난 트랜잭션을 다시 반영하기 위해서 운용 시스템을 업데이트하고 트랜잭션 로그 파일을 재처리해야 했다.

 사고가 발생한 월요일 밤 이후, 금요일까지는 이 팀들이 시스템의 오류도 거의 찾아내고 문제를 해결했다. 그러나 월요일 업무를 위해 은행이 문을 열 때까지 여전히 미심쩍은 부분들은 해결되지 않은 채 남아 있다. 제대로 시스템이 가동될지 정확한 결론을 내리지 않고는 은행 고객들이 거래를 하는 동안 은행은 위험요소를 안고 있어야 한다.

어쩌다 한 번 일어난 시스템 사고가 결국 큰 문제없이 종결됐다 하더라도 근본적인 문제 해결이 없다면 또 언제 비슷한 사고가 터질지 모른다는 불안감은 떨쳐버릴 수 없을 것이다. 백업 시스템에 문제가 발생할 때마다 “잘 해결 될 거야” 하는 요행수를 바라는 것은 현대 사회에서 매우 위험한 발상이다.

은행은 리스크 관리에 소홀했을 때 파장이 매우 크다. 최악의 경우 천문학적인 금액 손실을 감수해야 할 수도 있다. 그러나 은행이 미리미리 대비하는 데 들이는 투자비용은 피해액에 비하면 그리 많지 않다.

앞에서 이야기한 사례의 은행은 그동안 내부 원칙을 잘 수립하고 외부 규제를 만족시켜왔다. 또 데이터의 손실과 하드웨어 고장에도 역시 잘 대비해 왔다. 하지만 어떤 표준 운영 매뉴얼에도 언급되지 않은 갑작스러운 문제 발생 시의 복구에는 아무런 준비도 해오지 못했기 때문에 이러한 위험을 겪었던 것이다.

#얼마나 빨리 복구하는지가 관건

위기가 닥쳤을 때 이 상황에서 빨리 벗어나기 위해서는 평소 위기대응 능력을 키워야 한다. 사실 시스템의 문제는 어느 날 갑자기 발생하는 게 아니라 잠재됐던 요소가 결합해 큰 문제를 일으키거나 초기에 테스팅을 하지 못해 간과한 문제가 나중에 불거져 나오는 일이 많기 때문이다.

이번에는 은행이 아닌 유통회사의 사례를 살펴 보자. 유통회사에는 크리스마스가 가장 큰 대목이다. 그런데 이 유통회사는 한 번도 발생하지 않았고, 아무도 예측하지 못했던 스토리지 소프트웨어 버그로 판매관리(POS) 시스템에 오류가 발생해 가장 대목이었던 18시간 동안 판매를 할 수가 없었다. 사고 발생을 막지 못했다면 빠른 복구가 최선책이 된다.

IT팀은 시스템을 운용하고 관리하는 것 외에 테스팅도 일상적으로 수행해야 한다. 크리스마스 시즌에 많은 고객이 한꺼번에 구매를 할 때 최고 어느 정도까지 시스템이 견딜 수 있는지 모의 훈련을 실시해 점검해야 하며 이 훈련에서 파악한 문제점의 대비책을 마련해 둬야 한다.

크리스마스 시즌의 18시간은 파급력이 가히 폭발적이라고 할 수 있다. 매출 손해뿐만 아니라 이미지 추락, 경쟁사에 고객 뺏기기 등 이후의 파장을 고려하면 유통회사 역시 천문학적인 손해를 피할 수 없을 것이다.

은행의 거래는 월요일부터 금요일에 집중돼 있지만, 유통회사는 주말에 거래가 많으며 특히 1년 중 크리스마스를 전후로 가장 많은 트랜잭션이 발생한다. 산업마다 각기 다른 특징이 있으며 IT팀들은 자사의 특징을 고려해 복구시스템을 설계해야 할 것이다. 또 시스템이 복구되는 동안 다른 백업 시스템을 통해 일상적인 업무에 무리가 가지 않도록 준비해야 한다. 그리고 무엇보다도 IT 재해복구 전략이 필요하다. IT시스템에 어떤 문제가 발생한다 해도 업무 연속성을 해치지 않기 위해 일어날 수 있는 모든 가능성을 열어놓고 대비해야 한다.

#비IT적인 사고도 고려하라

IT시스템의 근본적인 문제 때문에 발생하는 사고도 있으나 우리가 예측하지 못한 지진·홍수·테러·전쟁 등과 같은 외부 요인으로 인한 IT시스템의 물리적인 손상도 고려해야 한다. 미국 뉴올리언스에서 발생한 태풍 카트리나, 9·11 테러, 유럽의 폭염, 인도네시아의 지진해일(쓰나미) 등으로 기업은 자사의 IT 재해복구 전략을 더욱 더 예리하게 만들었다. 기업들은 이러한 사고에 대비하기 위해 데이터센터, 콜센터, 운영 및 생산 기능을 분산시키는 추세다.

기업들은 재해복구 시나리오 범위를 확대해 매년 자사의 핵심 비즈니스 프로세스를 점검하고 있다. 위기상황에 대응하고 업무 연속성을 위한 계획을 수립하거나 필요하다면 비즈니스 운영을 복구할 계획도 미리 짜고 있는 것이다. 또 최고 정보 담당 임원(CIO)뿐 아니라 최고 리스크 담당 임원(CRO)이나 위기관리를 담당할 임원을 별도로 두기 시작했다. CRO 휘하에는 표준을 만들고 규제 준수 여부를 모니터링하며 이를 주주들에게 보고하는 직원과 컨설턴트가 있다.

IT팀과 위기관리팀이 평소에 사전 대비적인 모의 훈련을 실시한다 해도 실제 사고는 전혀 예상치 못한 분야에서 터질 수 있다. 앞서 말한 자연재해나 테러 외에도 데이터센터 주변에서 전기공사를 하다가 네트워크 케이블을 건드리는 일이 바로 그런 사례다. 그러나 충분한 모의 훈련과 매뉴얼은 복구에 걸리는 시간을 최소화하고 그에 따라 피해도 줄여준다.


브랜드 뉴스룸