[슈퍼컴퓨터]클러스터 관리툴

 여러대의 컴퓨터를 서로 연결해 성능을 향상시키고 다운타임을 최소화해야 하는 클러스터에서 관리툴은 일반적인 서버나 소프트웨어의 관리기술보다 고난도를 요구한다. 컴퓨터를 클러스터링한다는 것 그 자체가 중요한 게 아니라 고성능·고가용성이라는 목표를 달성해야 하며 이 과정에서 관리툴이 소프트웨어적으로 핵심적인 역할을 담당하기 때문이다.

 클러스터링은 목적에 따라 하나의 작업을 여러대의 컴퓨터에서 병렬형으로 분산처리해 전체적인 처리율을 높이기 위한 ‘병렬처리 클러스터링’과 클러스터내 여러 컴퓨터의 작업이 중단되지 않고 지속적으로 수행하게 하는 ‘HA클러스터링’으로 구분할 수 있는데 실제 관리측면에서 후자의 중요성은 매우 높다. 개별노드에서 발생하는 각종 장애를 예측해 장애요인의 제거 방안을 제시하고 실제 장애 발생시에는 다양한 방법으로 관리자에게 통보함으로써 신속한 대처를 유도해야 한다.

 클러스터 관리툴은 일반적인 시스템 관리툴 영역에 포함되기도 하지만 이와 같은 특성을 살려 전문 툴 시장이 형성돼 있다.

 국내 솔루션으로는 국산 시스템관리 소프트웨어 업체인 브레인즈스퀘어가 개발한 ‘제니우스’를 비롯해 클러스터 슈퍼컴퓨터 ASP 비즈니스를 펼치고 있는 이파워게이트의 ‘ez콘’ 등이 있다. 이파워게이트는 ez콘 외에도 각 애플리케이션에 따라 네트워크 분산 렌더링 작업을 관리해주는 ‘랜맨’ 등을 별도로 제공하고 있다.

 외산 솔루션으로는 미국 알테어엔지니어링사가 개발한 PBS프로, 플랫폼컴퓨팅사가 개발한 LSF, 시스템소프트웨어 전문업체인 레가토가 공급하고 있는 ‘LAAM’ 등이 손에 꼽힌다.

 한국IBM과 한국HP 등과 같은 하드웨어 업체들도 고성능 클러스터 관리 솔루션(CSM)을 별도로 취급하고 있으며 향후 시장 성장에 대비, 솔루션 분야를 강화하고 있다.

 한국IBM의 CSM은 IBM의 전통적인 슈퍼컴퓨터인 MPP 방식의 RS/6000 SP 상에서 사용되는 AIX용 병렬 시스템 지원 소프트웨어의 구조와 설계에 기반을 두고 있으며, 리눅스 클러스터 관리를 간편화하기 위해 분산된 관리 서버·이벤트 대응자원관리 등의 기능을 포함하고 있다. 한국HP는 올 10월 출시할 아이테니엄 클러스터 슈퍼컴퓨터 XC 시리즈를 지원하는 XC1.0버전을 출시할 계획이다.

<신혜선기자 shinhs@etnews.co.kr>

 

◇브레인즈스퀘어-제니우스

 ‘제니우스’는 서버·네트워크, 데이터베이스와 같은 IT자원 전반을 통합관리해 주는 국산 시스템관리 소프트웨어다.

 지난 2000년 국내업체인 브레인즈스퀘어(대표 강선근 http://www.brainz.co.kr)가 의욕적으로 선보인 이 솔루션은 사용자 인터페이스의 편리함을 고려해 웹 방식과 전용 콘솔방식을 제공하며 사용자의 물리적인 위치와 무관하게 시스템을 운영 및 관리할 수 있는 것이 가장 큰 특징이다.

 제니우스는 일반적인 시스템관리는 물론 대규모 클러스터 시스템에 적용될 경우 뛰어난 성능을 발휘한다. 클러스터 시스템에 적용된 제니우스는 성능·장애·보안·자산관리에 필요한 요소를 통합 모니터링하고 이 데이터를 바탕으로 클러스터 시스템에 대한 성능 및 장애 관련 분석자료를 제공함으로써 효율적인 시스템 운용을 가능케 한다.

 또 클러스터 시스템의 개별노드에서 발생하는 각종 장애를 예측해 장애요인의 제거방안을 제시하고 실제 노드 장애 발생시에는 다양한 방법으로 관리자에게 통보함으로써 신속한 대처를 유도한다.

 특히 클러스터 시스템의 각 노드를 서브클러스터로 구성, 다수의 노드를 동시에 제어·관리하기 때문에 대규모 클러스터 시스템 운영시 발생하는 각종 관리비용과 유지·보수비용을 대폭 절감할 수 있다. 클러스터 시스템을 운영중인 대규모 인터넷 포털사이트 NHN과 iMBC 등에 제니우스를 납품해 성능을 인정받은 바 있는 브레인즈스퀘어는 사용 편의성과 커스터마이징 용이성 등을 무기로 인터넷 기업과 대학 및 연구소의 슈퍼컴퓨팅, 그리드시스템 관련시장을 적극 공략할 계획이다.



◇알테어엔지니어링코리아-PBS프로

 ‘PBS(Portable Batch System)프로’는 미국 알테어엔지니어링사가 개발한 클러스터링 전문 툴로 컴퓨터에서 수행되는 작업에 대한 자원관리를 통해 계산 및 처리에 소요되는 시간을 대폭 줄여준다.

 적절한 가격과 고효율성이 장점인 PBS는 당초 나사의 NQS를 대체하면서 우주항공분야의 컴퓨터 자원을 효율적으로 활용하기 위한 목적으로 개발됐으며 초기버전인 오픈 PBS가 상용화되면서 PBS프로라는 이름을 갖게 됐다.

 병렬 슈퍼컴퓨터와 벡터 슈퍼컴퓨터, 워크스테이션과 서버 그리고 모든 PC 환경에서 사용이 가능한 이 솔루션은 현재 나사가 1000유닛 이상, 포드자동차가 972유닛을 사용하고 있으며 다임러크라이슬러, 비스테온, 도요타, 혼다 등 자동차업체와 독일 델파이 등이 주요 고객이다.

 자동차의 ‘관절지지대충격(knee bolster impact)’ 모델을 대상으로 벤치마킹을 진행한 결과 다이나 솔버를 이용한 HP 리눅스 환경에서의 계산처리시간은 2CPU일 경우 11시간 16분, 4CPU는 6시간 26분, 6CPU는 4시간 43분을 기록했다.

 지난 2001년 11월 설립된 알테어엔지니어링코리아(대표 조흥수 http://www.altair.co.kr)는 범용 구조해석 프로그램인 하이퍼웍스 제품군을 중심으로 사업을 전개해왔으며 지난해말 PBS프로를 국내에 선보였다.

 알테어엔지니어링 한국지사는 최근 국내에서도 클러스터링 기술에 대한 관심이 높아지면서 PBS 프로 역시 수요가 급성장할 것으로 기대하고 적극적인 영업활동을 펼치고 있다.

 

◇레가토코리아-LAAM

 레가토시스템스의 LAAM(Legato Automated Availability Manager)는 시스템 내의 특정노드에서 문제가 발생할 경우 다른 노드로 시스템을 전위시켜 서비스가 중단되는 것을 막아주는 클러스터 관리 툴이다.

 이 솔루션은 전용 하드웨어나 연결 없이도 모든 플랫폼 상에서 NT, 유닉스, 리눅스 시스템을 단일 레가토 도메인으로 운영할 수 있기 때문에 어떠한 엔터프라이즈 컴퓨팅 환경에서도 동일한 서비스 가용성을 보장한다. 또 교차플랫폼 상에서의 이관(failover)를 지원하기 때문에 유닉스·리눅스 시스템에서 오류 발생시 NT/2000 시스템에서 해당서비스를 재가동할 수 있다. 오류가 발생한 시스템이 온라인에서 정상으로 다시 가동되면 시스템 운용자가 별다른 조치를 취하지 않아도 자동으로 원래 시스템에서 서비스를 재개하는 편리한 기능도 갖고 있다.

 특히 시스템 자원의 과부하로 인한 시스템 다운을 막기 위해 미리 정한 자원 사용량의 상한선을 넘어설 경우 다른 시스템으로 서비스를 전위하는 사전대처(proactive) 기능은 LAAM만의 향상된 기능이다.

 LAAM은 하나의 중앙집중관리 콘솔에서 최대 100노드 이상을 관리할 수 있으며 그래픽유저인터페이스(GUI) 환경의 관리 콘솔을 통해 자원의 손쉬운 추가가 가능하다.

 LAAM을 활용해 시스템관리시스템(SMS)를 구축한 루슨트테크놀로지스는 지난 2년간 120명의 IT관리자를 40명으로 줄이는 효과를 보기도 했다.

 LAAM은 국내에서도 레가토시스템즈코리아의 판매채널인 맨텍을 통해 삼성전자·포스코·증권전산·KT 등 다양한 분야에 사이트를 확보하고 있다.

 

◇플랫폼컴퓨팅-LSF

 플랫폼컴퓨팅사의 LSF(Load Sharing Facility)는 그리드 기술과 고성능 아키텍처를 기반으로 상이한 컴퓨팅 자원을 통합하고 강력한 프로세싱 능력을 제공하는 솔루션이다.

 고객들은 LSF를 통해 자원을 재배치하거나 과투자된 자원을 공유함으로써 비용구조를 개선하고 비즈니스 확장에 대한 IT의 활용도를 높일 수 있다.

 LSF는 중요한 업무를 정해진 시간에 완료할 수 있도록 특정 서버를 특정 업무에만 할당하는 발전된 예약(advanced reservation) 기능과 대용량 메모리가 필요한 업무의 경우 최고의 성능을 발휘하기 위한 메모리 예약(memory reservation) 기능을 제공한다.

 또 서버나 네트워크 장애시에도 자원관리를 지속적으로 수행하기 때문에 서비스 연속성을 확보했으며 타 제품 사용자들이 LSF 환경으로 편리하게 마이그레이션할 수 있도록 주요 애플리케이션과의 인터페이스 모듈을 갖고 있는 것도 특징이다. LSF는 50여개의 주요 EDA, 생명공학 및 MDA 제품들과 통합돼 있다.

 확장제품인 멀티클러스터를 통해 원거리 사이트에 있는 컴퓨팅 자원을 투명하게 공유할 수 있으며 자원임대모델(RLM:Resource Leasing Model)은 모든 클러스터를 단일 시스템 환경으로 인식해 손쉬운 관리체계를 제공한다.

 현재 전세계적으로 1600여 고객들이 LSF를 도입했으며 국내에서도 삼성종합기술원·현대자동차·하이닉스반도체 등 다수의 기업과 한국과학기술정보연구원을 비롯한 서울대·서울시립대 등 연구기관 및 대학이 이 솔루션을 활용하고 있다.


브랜드 뉴스룸