[cover story]재해복구 전략 패러다임이 바뀐다

 기록적인 한파가 연일 기승을 부리던 지난 연말 한국씨티은행, 맥쿼리증권 등 금융서비스업체에서 서비스가 중단되는 사태를 겪었다. 데이터센터 냉각기 동파로 정보시스템과 인프라가 침수 피해를 겪었고 이 때문에 서비스가 중단된 것이다.

 이 사건은 금융권은 물론이고 제조기업과 서비스 기업에도 시사하는 바가 크다. 지난 2001년 뉴욕 9·11 무역센터 테러 이후 권고된 금융권 재해복구(DR)체계는 10년이라는 시대적 변화를 반영하지 못하고 있기 때문이다.

 또 정부감독기관의 규제 대상이 아니었던 유통, 통신 등 서비스 업체와 제조산업에서 DR의 중요성이 커지고 있다. 서비스 중단은 법·규제보다 더 무서운 고객 이탈, 전 세계 업무 마비를 초래할 수 있기 때문이다. 이에 글로벌 단일 업무 환경을 구현하려는 제조기업들은 백업 이상의 DR체계를 고민하고 있다.

 DR체계의 요건과 적용 방법론에도 새로운 시각이 요구되고 있다.

 기업 업무 시스템은 웹 기반으로 전환되고 인터넷으로 접속, 이용하는 환경이 됐다. 사무실 밖에서도 업무 연속성을 제공하기 위해 데스크톱 가상화, 모바일 컴퓨팅이 확산되고 있다. 이는 전통적인 DR체계에서는 논외 대상이었던 외부 네트워크, 최종 사용자(클라이언트) 환경, 전력시설과 공조시설 등이 2011년 이후 DR전략에서는 필수 요소로 고려해야 한다는 뜻이다.

 고려해야 하는 DR 요건과 경우의 수가 늘어나면서 최고정보책임자(CIO)와 IT조직은 한정된 비용으로 이전보다 많은 업무에 고가용성을 제공해야 하는 고민에 빠졌다. 서버 이중화, 스토리지 미러링(데이터 복제), 원격지 DR 등 전통적인 DR 솔루션 외에 새로운 영역의 DR 솔루션을 모색해야 한다.

 

 ◇급변하는 금융 환경 반영 못하는 DR권고안=금융감독원의 재해복구 지침에 따르면 은행, 증권, 카드 등은 주 업무 시스템 장애 시 3시간 이내에 복구될 수 있는 체계를 마련해야 한다. 증권선물거래소, 코스닥시장증권, 증권예탁원 등 증권 유관기관 및 통합시스템 운영기관도 마찬가지다.

 하지만 이 지침은 지난 2001년 9·11 테러가 발생했을 당시 마련됐으며 이후 큰 변화는 없다. 지난 10년간 모바일과 인터넷에서 금융 업무가 보편화되고 있으며 자본시장법과 방카슈랑스 등 금융 업무의 융·복합화 현상을 전혀 반영하지 못하고 있다는 뜻이다.

 한국은행의 2010년 9월 자료에 따르면 100명 중 84명 이상이 인터넷, 모바일, 전화 등 네트워크와 시스템을 이용한 금융 거래를 하고 있다. 오늘날 금융소비자에게 3시간 동안의 금융 업무 중단은 2001년과는 그 수준을 달리하는 불편함과 피해를 초래한다.

 현재 한 은행의 서비스 중단은 다른 금융기관에도 영향을 미친다. 은행의 전산 마비로 해당 은행에 주식거래 계좌개설을 한 증권사 고객이 주식매매 및 출금(이체) 업무를 할 수 없다. 또 금감원 지침상 보험사는 24시간 내 복구 수준을 만족시키면 되지만 만일 보험사의 지급결제 참여, 랩어카운트(맞춤형 자산관리계좌) 등이 활성화되면 보험사의 DR 수준 역시 상향 조정돼야 한다. 또 금감원의 재해복구 지침은 외국계 금융기관에는 자율을 허용하고 있으나 최근의 글로벌 뱅킹 시대에는 국내 금융권과 동등한 원칙이 적용돼야 한다.

 ◇실시간 DR 요구 높아지는 제조기업=최근의 비즈니스 환경 변화와 기술 발전으로 DR 전략에 큰 영향을 받고 있는 곳은 대형 제조기업이다. 제조기업들은 금융권이나 통신업체와 달리 백업 수준에서 DR시스템을 구축해 왔다. 핵심 정보시스템이 중단돼도 서비스 지연으로 불편을 겪는 것은 내부 임직원 또는 공급업체 정도였기 때문이다.

 하지만 최근 삼성전자, LG전자, 현대자동차, 만도 등 주요 글로벌 제조기업은 해외 사업 확대에 박차를 가하고 있으며 이는 IT부서에 새로운 고민을 안겨줬다. 글로벌 통합정보시스템 구축과 그에 따른 DR체계 고도화다.

 이들 기업이 앞다퉈 구축하는 글로벌싱글인스턴스(GSI) ERP는 글로벌 통합경영정보 환경에서 전 세계 사업장의 데이터를 신속히 집계해 결산마감 속도를 높이고 이를 토대로 경영지표를 빠르게 파악해 불투명한 시장 상황에서 신속한 전략적 의사결정을 수행하기 위한 것이다.

 분산되어 있던 시스템을 통합하면서 두 가지 문제가 나타났다. 전 세계 사업장의 ERP 데이터 역시 집중된다는 점과, 시스템의 중단이 전 세계 비즈니스 중단으로 이어질 수 있다는 점이다. 이 때문에 GSI ERP를 구축했거나 구축 중인 제조기업은 서비스 중단을 최소화할 수 있는 DR를 고민하고 있다. 오히려 금융권 이상의 가용성이 요구될 수도 있다. 시스템 복구가 길어질수록 전 세계 사업장이 다 함께 손놓고 있게 되기 때문이다.

 삼성전자의 경우 해외 원격 DR센터를 구축해 관심을 모으고 있다. 제조기업으로서 해외 DR센터를 구축한 곳은 삼성전자가 국내 최초라는 게 업계의 설명이다.

 삼성전자 DR체계는 경기도(메인센터)-경북 구미-미 뉴저지의 3중 체계지만 해외 DR센터에는 해외 사업장의 데이터만 복제 전송하는 것으로 알려졌다. 또 메인센터 내 로컬 미러링을 구현했기에 실질적으로는 4중의 안전장치를 마련된 셈이다.

 LG전자의 경우 메인센터 내에 디스크 미러링을 하고 있다. 메인 스토리지와 복제 스토리지에서 각각 운영되는 BCV(Business Continuance Volume)는 실시간 동기화되고 있다. 이와 함께 일일 3회의 온라인 핫백업과 일일 2회의 테이프 백업을 동시 수행하고 있다. 최악의 경우 최장 3시간 전의 데이터로 회복된다.

 지난해 3월 GSI ERP를 구축 완료한 만도의 경우 아직 실시간 DR시스템은 없다. 하지만 이르면 2012년께 DR 시스템 구축에 착수한다는 생각이며 이를 위해 GSI ERP 환경에서 DR체계를 구축한 선도 사례를 검토할 계획이라고 만도 관계자는 전했다.

 이 관계자는 “GSI ERP 환경에서 장애가 발생할 경우 서비스가 재개되기까지 잠재적 피해(기회비용 손실)가 너무 크기 때문에 실시간 복구 시스템을 염두에 두고 있다”고 전했다. 이와 함께 원격지 DR센터 구축도 함께 고려하고 있다. 만도는 백업센터를 운영하고 있지 않아 원격지 실시간 DR센터를 구축할 경우 대규모 투자가 예상된다.

 디스크 미러링을 한다고 해서 문제가 해결되는 것은 아니다. 단일 시스템으로 전 세계 데이터가 집중되면서 디스크 미러링에 의해 복제되는 데이터 양도 폭증하게 된다. 네트워크 증설, 스토리지 증설이 요구되며 변경된 부분만 저장하는 스냅샷 생성이 빈번해지면서 ERP 운영 서버 자체도 용량을 증설해야 한다.

 ◇인터넷과 가상화도 DR 주고려 대상=모바일 컴퓨팅과 데스크톱 가상화, 서버 가상화 등 최근의 기술 발전도 전통적 DR체계를 해체시키고 있다. 이는 전통적 DR체계에 없던 두 가지 요소를 추가시켰는데 인터넷 액세스와 클라이언트 업무 환경의 DR다.

 예를 들어 데스크톱 가상화 환경을 구현한 기업에서는 데스크톱 환경이 운영되는 서버가 장애를 일으키거나 인터넷이 중단될 경우 PC에서의 개별 문서 작업도 불가능해진다. 이전에는 PC 업무라도 할 수 있었지만 데스크톱 가상화 환경에서는 사무실에서 할 수 있는 업무가 없다.

 서버 가상화 역시 기업 DR체계에서 중점적으로 다뤄야 할 요소다. 지금까지 x86 서버 가상화는 웹메일, 테스트, 개발 등 비핵심 업무 중심으로 적용되지만 최근 들어 가용성이 요구되는 중요 업무도 x86 기반 가상화서버(VM) 환경에서 운영하는 기업이 늘고 있다.

 프로세스 제조기업에서 가장 중요하다는 MES, 그룹 계열사에 제공되는 ERP와 그룹웨어 서비스를 가상화 환경의 x86서버에서 적용하는 기업도 나왔다. 주요 업무 서버를 VM에서 운영하는 기업에서는 VM의 선별적인 DR 환경이 마련되지 않으면 보험 성격인 DR에 과투자가 일어날 수 있다.

 인터넷 액세스의 가용성 역시 고려돼야 한다. 이전에는 데이터센터 내부의 네트워크만이 DR 대상이었지만 글로벌 ERP, 사무실 외부에서의 업무 시스템 접속 등 인터넷 의존도가 심화되고 있기 때문이다.

 고려해야 하는 DR 요건과 경우의 수가 늘어나면서 서버 이중화, 스토리지 미러링(데이터 복제), 원격지 DR센터 외 새로운 DR 솔루션을 고려해야 한다. 인터넷 접속 우회 서비스, 상시백업(CDP), 변경분원격복제(CRR) 등이 그것이다.

 CDP는 디스크 미러링과 백업 사이에서 비용과 복구 수준 모두를 만족시킬 것으로 기대를 모았으나 기대에 비해 확산 속도가 느리다. 그러나 최근 중국의 한 은행에서는 디스크 미러링 없이 CDP만으로 6분 만에 시스템 복구를 수행해 보이기도 했다.

 임병혁 팔콘스토어코리아 지사장은 “영하은행은 데이터센터 화재라는 재해발생 시나리오를 가지고 재해복구 테스트를 했는데 CDP 환경에서 장애 발생 후 정상 복구까지 단 30분, 그 중 CDP로 원격지에서 업무를 페일오버하는 것은 단 6분 만에 성공해 팔콘스토어 글로벌 차원에서도 화제”라고 설명했다. 특히 디스크 미러링 방식에서 스토리지나 복제 소프트웨어 이상으로 통신 회선에 들어가는 고정비 부담이 높다는 점을 감안하면 CDP의 매력이 높다.

 ◇DR 대상 업무, 복구 수준은 현업이 결정해야=DR체계에서 고려해야 할 요건들이 늘어나면서 기업의 현명한 DR체계 수립이 요구되고 있다.

 DR시스템 구축 시 가장 어려운 것은 기술적인 구현 문제보다 어떤 업무에 얼마나 빨리 서비스를 복구할 것인지 하는 결정을 내리는 것이다. DR 적용 대상 업무 시스템이 많을수록 복구 속도와 수준이 높을수록 DR 구축비용은 기하급수적으로 늘어나기 때문이다.

 허주 한국EMC 부장은 “실시간 DR는 기본적으로 삼중화를 해야 가능하다”며 “센터 역시 3원화해서 운영하는 것이 바람직하다”고 설명했다. 한국씨티은행의 경우도 만일 BCP 호스트센터를 외부에 두었더라면 메인센터의 붕괴 시 BCP 호스트센터에서 백업센터로 페일오버시킬 수 있기 때문이다.

 신속한 서비스 재개가 요구되는 업무가 무엇인지 하는 것은 현업 부서와 경영진의 판단이 필요하다. 매출, 기업 신뢰도 등 가장 우선시하는 기준이 무엇인지, 그로 인해 고수준의 DR체계를 마련해야 하는 업무는 무엇인지 선정해야 한다. 지금까지는 DR 시스템이 금융권 중심으로 구축돼 왔기에 별도의 논의 없이도 계정계·정보계·대외계 순으로 적용한다는 것이 상식이었다. 하지만 아직 사례가 많지 않은 일반 기업의 DR시스템 구축 프로젝트에는 현업이 핵심적으로 참여해야 한다.

 

박현선기자 hspark@etnews.co.kr


브랜드 뉴스룸