[Analysis]가상화 환경의 DR - 개별 가상화서버 장애에는 속수무책?

 가트너는 서버 가상화가 최고정보책임자(CIO)들이 고려해야 할 1순위 기술이라고 강조한다. 그런 만큼 IT서비스의 가용성과 BCP 전략에서 가상화 서버를 배제할 수는 없다.

 현재 서버 가상화는 보편화된 기술로 여겨진다. 따라서 버추얼머신(VM)에서 운용되는 애플리케이션이 핵심 업무인지 아닌지, 혹은 가상화 서버를 어느 정도 비중으로 적용하느냐의 문제일 뿐 어지간한 곳에서는 이미 사용하고 있다는 인식이 강하다.

 하지만 가트너는 “2011년 한 해 동안 구축될 VM은 지난 2001년부터 2009년에 구축된 VM을 합친 것보다 훨씬 많을 것”이라고 전망한다. 서버 가상화에 대한 관심에 비해 실제 구축은 더디었다는 뜻이기도 하지만 서버 가상화 기술이 대기업에서 이제 중견기업들로 확산될 것으로 예상되기 때문이다.

 또 가트너는 전체 워크로드 중 x86서버의 VM 환경에서 운용되는 워크로드가 올해는 40%, 내년에는 50%에 이를 것으로 본다. 서버 가상화의 성장에 따라 VM에서 운영되는 애플리케이션 또한 핵심 업무의 영역으로 확장되고 있다.

 이는 VM 가용성 또한 기업의 비즈니스연속성(BCP) 전략에서 배제돼서는 안 된다는 뜻이다. 하지만 현재 VM의 가용성과 재해복구(DR) 계획은 VM들을 운영하고 있는 물리적 서버에 초점을 맞추고 있거나 VM들에 의해 생성되는 데이터 백업에 치중되고 있다.

 ◇VM 호스트인 물리적 서버 가용성 이상 요구=x86서버 시스템과 CPU의 성능이 발전하면서 한 대의 물리적 서버에 다수의 VM을 운용하는 기업이 늘어나고 있다. 미 IT전문지 인포메이션위크의 2010년 8월 조사에 따르면 10대 이상의 VM을 한 대의 물리적 서버에서 운용한다는 기업이 조사 대상자 중 26%에 이르렀다. 이 중 21~40대를 운용한다는 기업은 10%에 달했다.

 또 VM에서 중요한 업무를 운용하고 있는 기업도 증가하고 있다. 전사적자원관리(ERP)보다 생산관리시스템(MES)을 더 중시하는 생산현장에서 MES를 VM 환경에서 운용하고 있는 경우도 어렵지 않게 볼 수 있다. 국내 대기업 P사의 경우 계정인증 서버를 VM에서 운용하고 있으며, 코오롱베니트는 그룹웨어, DB, ERP 등을 하나의 물리적 서버에서 VM으로 각각 운영하고 있다.

 가상화 환경에서 물리적 서버의 장애는 애플리케이션 서비스의 실제 운용주체인 VM들에 영향을 미치기 때문에 서버 가상화 환경에서는 고가용성(HA) 옵션을 고려해야 한다. 특히 테스트나 개발, 배치용이 아닌 실제 업무용으로 VM을 운용하고 있고 다수의 VM을 한 시스템 내에서 운영하고 있다면 HA 옵션은 선택이 아닌 필수다. 장애를 일으키면 전 세계 사업장이 마비되어버리는 글로벌싱글인스턴스(GSI) ERP시스템과 마찬가지 현상이 발생할 수 있기 때문이다.

 ◇개별 VM에 대한 페일오버, 선택 적용할 수 있어야=서버 가상화 환경에서도 데이터센터와 마찬가지로 DR체계는 △물리적 서버 △VM(운용체계와 시스템 파일) △VM 데이터 △네트워크(I/O) 크게 네 가지로 나눌 수 있다. 서버 가상화 DR는 대부분 데이터 백업에 초점을 맞추고 있다. 나아가 핵심 업무에 서버 가상화를 적용한 기업이라고 해도 첫 번째 물리적 서버에 대한 HA 기능을 적용하는 것이 발전된 모습이다.

 하지만 VM이 애플리케이션 서비스를 제공한다는 점에서 서버 가상화의 DR는 백업에서 나아가 HA, 즉 장애 시 페일오버(자동 업무이관)에 의한 서비스의 실시간 재개 기능을 제공해야 한다. 특히 이러한 페일오버 기능은 각 VM에 대해 사용자가 선별적으로 적용할 수 있어야 합리적인 투자가 가능하다.

 VM웨어를 예로 들어보면, 고가용성 옵션인 VM웨어 HA, 호스트 간 무중단 VM 이전(마이그레이션) 옵션인 V모션을 제공한다. 가트너 보고서(2010년 6월 기준)에 따르면 VM웨어는 세계 서버 가상화 시장의 84%를 차지하고 있다.

 VM웨어 HA는 VM웨어 버추얼센터에서 페일오버 기능을 제공하는데, 물리적인 호스트(VM 운용 서버)가 중단될 때 전체 VM을 백업용 호스트에서 재부팅시켜준다.

 V모션은 무중단 VM 이전(마이그레이션) 기능으로, 역시 VM웨어 버추얼센터에서 제공한다. 정해진 성능 임계치에 도달하면 VM 호스트 1에서 호스트 2로 자동 혹은 수동으로 이전시키는데 VM이 구동 중일 경우에만 이전 가능하다. 즉 물리적 서버가 다운되거나 해당 VM이 중단된 경우에는 이용할 수 없다. 따라서 유지보수나 테스트, 물리적 서버의 업그레이드 등 계획된 셧다운에 앞서 적용된다.

 따라서 두 가지 옵션 모두 호스트 내 ERP나 그룹웨어 등 특정 VM만이 중단될 경우 적절한 대안이 되지 않는다. 만일 VM에서 ERP를 운영할 경우 다른 HA 옵션이 필요하다.

 또 장애 판단을 별도의 서버인 VM웨어 버추얼센터에서 하기 때문에 이 서버가 장애를 일으키면 VM웨어 HA나 V모션 등의 기능은 사용할 수 없다. 이 버추얼센터의 DR를 위해서는 서드파티의 HA 소프트웨어로 이중화해야 한다.

 이외에도 SAN 공유 스토리지 장애 발생 시에도 VM이 중단될 수 있다. VM웨어 버추얼센터는 SAN 스토리지에 VM 파일들을 저장하도록 하는데 스토리지 내 VM의 애플리케이션, 파일 시스템들에 대한 장애 감시는 이뤄지지 않기 때문이다. 장애 감시와 페일오버 기능은 별도로 제공돼야 한다.

 이진현 맨텍 부장은 “VM웨어 환경에서 스토리지 장애나 스토리지 내 특정 VM 파일 오류가 일어나면 해당 VM에서 운영하는 애플리케이션은 중단된다”며 “개별 VM에 대한 실시간 페일오버는 VM웨어나 시트릭스 등 가상화 솔루션업체에서는 제공하지 않고 있다”고 말했다.

 이는 ERP와 같은 핵심 업무 서버와 홈페이지와 같은 비핵심 업무 서버를 한 대의 물리적 서버에 VM으로 구성할 경우 문제가 된다. 가상화 서버 전체에 대해 모 아니면 도(all or nothing)의 HA 적용을 해야 하기 때문이다. 개별 VM에 대한 HA가 제공되지 않기 때문에 HA 과투자를 초래할 수 있다.

 맨텍은 개별 VM에 대해 HA 기능을 적용하는 MCCS 솔루션을 라미드그룹, 교육문화회관, D보험사, L화학 등에 공급했다.

 ◇개별 VM의 HA 페일오버, 가상화 신뢰도 향상=라마다서울, 미란다호텔 등을 운영하는 호텔레저그룹인 라미드그룹은 8개 호텔 각각에 운영하던 DB 서버를 가상화로 통합 구현하면서 본사에 위치시켰다. 대신 8개 호텔 DB 서버 VM 각각에 대해 MCCS를 적용해 VM별 페일오버를 가능하도록 구현했다. 한 호텔의 DB 서버에만 장애가 날 경우 유연하게 대처하기 위해서다. 한국교직원공제회의 교육문화회관 역시 산하 4개의 교육문화회관(호텔) 서버를 통합한 후 개별 VM에 대한 DR를 적용하고 있다.

 대기업 P사는 데스크톱 가상화 운용 서버에 MCCS를 적용했다. 물리적 서버에는 사용자(임직원)들의 데스크톱 환경이 각각의 VM 상태로 운용되며 계정인증 서버 또한 동일 서버에서 VM으로 운용된다. 사용자 데스크톱 환경을 운용하는 VM들은 데이터 백업만, 계정인증 서버에는 HA를 적용해 이중화했다. 인증 서버가 다운되어 버리면 같은 물리적 서버 내 데스크톱 환경들이 각각의 사용자에게 제공될 수 없기 때문이다.

 코오롱베니트 또한 MCCS 솔루션을 적용해 동일한 물리적 서버에서 운용되는 ERP, 그룹웨어 등에 대해 각 VM별 HA 이중화 환경을 구현해 페일오버가 가능하도록 했다.

 x86 가상화는 유닉스서버 대비 x86서버에 대한 상대적인 불안함, 가상화 기술에 대한 신뢰도 문제로 비핵심 업무를 운영하는 경우가 일반적이다. 그러나 이미 ERP나 MES 등 중요한 시스템을 x86서버 가상화 환경에서 운용하는 사례가 생겨나고 있으며, 가상화 환경의 HA는 x86서버 가상화가 기업의 핵심 기간업무로 영역을 확장해 나가는 데 기여하고 있다.

박현선기자 hspark@etnews.co.kr


브랜드 뉴스룸