[테마특강] 네트워크 관리항목 검증

李鍾一 (주)인티 이사

84년∼88년 럭키금성 기획조정실

88년∼93년 삼보컴퓨터

94년∼95년 KDC정보통신

96년∼ (주)인티 이사

네트워크 분야는 지난 10년간 타 분야에 비해 높은 성장을 해왔다. 작년만 해도 40%이상 성장했다. 그러나 이는 겉으로 드러난 물리적 팽창일 뿐 질적인 발전을 의미하는 것은 아니다. 요구 분석, 최적의 설계, 체계적 운영, 개선을 위한 분석 등 질적 측면에서 보면 거의 답보상태인 것으로 평가된다.

많은 네트워크는 투자된 자원의 가치에 비해 실제 사용하는 현황은 열악하기 짝이 없다. 경제적 어려움이 없던 시절에는 투자의 적정성에 대한 검증이 없더라도 문제가 아니었지만 최근의 경제 상황에서는 네트워크의 경제성에 대한 검토가 절실하다. 특히 이미 투자된 자원의 효율성 측면에서도 분석을 통한 검증이 필요하다고 생각된다.

서버 5개와 여러 개의 사무용 컴퓨터가 라우터를 중심으로 근거리통신망(LAN)으로 연결, 업무용 및 교육용으로 활발하게 서버를 이용하고 있는 한 조직의 네트워크를 분석한 일이 있다. 이 조직에서 네트워크에 대한 불만은 PC에서 서버를 액세스 하는 경우 응답시간이 지나치게 길다는 것이었다. 문제를 해결하기 위해 각 서버의 응답시간을 측정한 결과 서버별 평균 응답시간은 대부분 2백㎳ 이하로 나타났다. 물론 부하가 상대적으로 많은 서버에 비해서도 15분의1이나 30분의1정도 인 것도 있었다. 평균 응답시간이 긴 서버의 최대 응답시간은 4만㎳대에 달해 다른 서버에 비해 4백배 높은 것으로 나타났다. 이 네트워크에서 사용자가 느끼는 응답시간이 긴 것은 백본 역할을 하는 라우터와 서버에 연결된 10Mbps의 네트워크에서 병목현상이 발생하기 때문으로 판단됐다. 그래서 라우터 대신 고성능 ATM 스위치로 대체를 추진했으나 네트워크에 대한 전반적인 분석 결과는 전혀 다르게 나왔다. 즉 불만족스런 응답시간은 해당 서버의 메모리 부족으로 인해 발생한 것으로 판명됐다.

이같은 사례는 비단 이 조직 뿐 아니라 다른 네트워크에서도 흔히 볼 수 있는 현상이다. 지난 몇년간 네트워크에 대한 분석을 하면서 많은 네트워크에서 발견한 특징은 네트워크 사용현황에 대한 객관적 파악과 정책적 결정에 필요한 고급 정보의 부족으로 요약할 수 있다.

사용현황의 파악이 안되는 원인은 다음과 같이 요약 할 수 있다. 관리업무 절차가 체계화돼 있지 않고 사용하는 네트워크의 관리적 특성이 이해되지 않으며 관리 정보를 수집, 분석하는 도구(tool)가 부족하다는 것이다. 이와 함께 관리 정보의 분석 방법이 체계화돼 있지 않다는 것도 문제다. 현황 파악에 필요한 정보가 입수되지 않는 만큼 네트워크에 내재하는 문제가 파악되지 않는다. 네트워크에 문제가 있더라도 그 정확한 원인을 찾을 수 없다. 네트워크 관리의 목표가 가용성, 응답시간, 처리율로 표현되는 서비스 품질을 최상으로 유지하는 것이라고 할 때 이 목표는 정확한 관리 정보 없이는 달성될 수 없다. 따라서 네트워크에 관한 정보 부족은 네트워크 사용자에 대한 서비스 품질의 저하로 귀결된다.

네트워크 정보의 부족은 네트워크 관리 담당이 기술중심적 시각을 갖고 있는 반면 경영층은 투자된 자원의 경제성에 관심을 갖는데서 나온 결과다. 정책 결정에 필요한 전략적 정보는 네트워크를 운영하는 과정에서 서비스 현황, 자원 사용의 효율성 등을 바탕으로 경영층의 시각에서 추출돼야 한다. 그러나 정보의 원천인 기술자로부터는 이러한 정보가 추출되지 않는다. 또 경영층은 네트워크의 핵심적 특성을 이해하지 못하기 때문에 두 계층간의 인식 차이, 기술적 차이 등으로 인해 필요로 하는 전략적 정보가 제공될 수 없는 것이다.

네트워크의 특성은 네트워크 관리자, 경영자, 사용자의 입장에 따라 바라보는 시각이 달라진다. 네트워크 관리자는 낮은 장애수준을 유지해 네트워크 사용자의 불만을 최소화하고 투자된 자원이 적절히 이용되기를 기대한다. 따라서 네트워크 관리자는 장애율(Error Rate), 이용률(Utilization)과 같은 기술적 측면에 초점을 맞추어 네트워크를 바라본다. 네트워크 사용자는 원하는 시점에 항상 서비스가 되기를 바라고 어떠한 상황에서도 빠른 속도로 서비스되길 기대한다. 높은 가용성(Availability)과 빠른 응답시간(Response Time)은 사용자가 원하는 모든 것이다. 경영자는 이와 달리 투자와 효용성 관점에서 네트워크를 파악한다. 가능한 한 적은 투자로 최대 업무가 처리되기를 기대하고 자원의 처리능력(Throughput)을 중시한다.

이같은 상이한 관점을 요약하면 이용률, 장애율, 가용성, 처리율, 응답시간 등 5가지 항목이 관심사항이다. 네트워크는 이상의 요소를 바탕으로 총체적으로 평가될 수 있다. 이 5가지 특성은 상호 모순되는 특성이 있다. 예를 들어 제한된 용량을 가진 네트워크 장치의 처리율을 적정 수준 이상으로 높이고자 하면 당연히 대기 행렬이 발생하여 응답시간이 길어진다. 다시 말해 처리율이 높아지면 사용 효율은 증가하지만 응답시간이 길어져 서비스 품질은 저하되는 문제가 발생한다. 때문에 모든 계층의 요구사항을 동시에 만족시키는 것은 현실적으로 불가능하다.

네트워크 관리항목 5가지를 하나씩 살펴보자. 우선 장애는 네트워크 구성요소의 기능이 정상적으로 제공되지 않는 상황과 정상적 서비스로 인정할 수 없는 수준이 일정시간 지속되는 경우를 의미한다. 장애율이 높은 경우 장치의 부하를 증가시키고 데이터를 재전송하는 문제가 발생해 성능이 떨어지는 동시에 응답시간이 길어진다. 장애는 네트워크 구성요소의 모든 부분에서 감지될 수 있다. 따라서 사용자가 심각한 장애를 감지해 서비스 품질이 떨어졌다고 판단하기 전에 정상상태로 만드는 것이 관건이다. 네트워크 관리 도구에서 제공할 수 있는 장애 정보에는 시스템의 경우 인터페이스 다운, 버퍼 미스율, 버퍼 생성 실패율, 이더넷의 경우 패킷 폐기(Discard)율, 에러율, FCS에러율, 충돌(Collision)률, 시리얼의 경우 디스카드(Discard)율, 에러율, FCS에러율 등이 있다. 이들 각 항목들은 기술적 특성과 밀접한 관련이 있으므로 특성을 이해해야만 정확한 분석이 가능하다.

가용성은 사용자가 데이터 전송을 원하는 시점에 네트워크가 정상적인 서비스를 제공할 수 있는 가능성을 말한다. 네트워크 관리의 관점에서 보면 상당히 중요한 요소이다. 가용성은 각 구성요소, 세그먼트, 전체 시스템 단위로 나누어 시간 단위로 계산하되 총 기간은 1주, 1개월 또는 1년을 기준으로 설정할 수 있다. 만약 가용성이 허용 가능한 수준 이하로 떨어진다면 관리자는 네트워크의 개별 요소의 신뢰성에 대해 점검을 해야 한다.

사용자 단말과 서버간에는 장애가 발생하는 지점이 많기 때문에 일반적으로 네트워크 구성요소만의 가용성은 사용자가 피부적으로 느끼는 가용성과 격차가 있다. 정확한 가용성을 평가하기 위해서는 네트워크를 구성하고 있는 개별 장치 뿐 아니라 호스트 컴퓨터, 소프트웨어, 데이터베이스, 단말 등 데이터가 경유하는 모든 요소를 통합해서 계산해야 한다. 가용성은 사용자가 가장 민감하게 반응하는 항목인만큼 정기적 평가가 필요하다. 장치의 중요성에 따라서 1주 또는 1개월을 주기로 평가하는 것이 바람직하다.

이용률은 자원의 용량 대비 실질 활용률을 의미한다. 적정수준의 이용률은 투자대비 효과가 높다는 것을 의미하므로 자원의 투자가치에 대한 평가기준으로 사용할 수 있다. 이용률은 처리율과 구분되지 않지만 장치 또는 회선의 처리 능력 대비 트래픽이 점유한 능력의 비율을 의미한다. 전송 회선의 예를 든다면 회선 이용률은 송, 수신 비트 수에서 전송 속도를 나눈것으로 표현할 수 있다. 자원의 사용 효율이라는 면에서 보면 이용율은 1백% 가까운 것이 바람직하지만 비효율적인 프로토콜, CPU의 과부하, 또는 애플리케이션의 비효율 때문에 자원의 능력을 1백% 이용하는 것은 거의 어렵다. 이용률은 서비스 품질 및 비용과 어느 정도 상호교환(Tradeoff)관계에 있다. 이용률을 높이면 회선수가 줄어 들어 비용이 절감되는 반면에 사용자에 대한 서비스 품질이 떨어진다. 반면에 이용률이 낮으면 회선은 불필요하게 낭비되지만 서비스 품질은 높아진다. 이용률에 대한 적정 기준치는 자원 활용목표, 서비스품질 목표를 고려하여 자원별로 상이하게 설정할 수 있다. 이에 대해서는 사용자 만족도를 관찰할 수 있는 네트워크 관리자가 환경에 적합한 기준을 설정할 수 있다.

처리율은 자원의 능력대비 실질 처리결과를 평가하는 것으로 장치에 입력된 데이터 대비 출력된 데이터의 비율로 계산한다. 처리율로 처리결과의 신뢰성과 장치의 실질적인 능력을 동시에 평가할 수 있다. 처리율은 응답시간과 매우 밀접한 관계를 갖고 있다. 장치의 능력에 따라서는 처리율이 1백% 가까이 도달하는 경우에도 정상적인 응답시간을 보장하는가 하면 일정한 처리율을 넘는 순간부터 응답시간이 길어지는 현상이 발생할 수도 있다. 따라서 지속적으로 처리율과 응답시간 특성을 평가, 장치의 처리능력과 응답시간의 관계를 파악하고 자원의 사용효율을 높이는 동시에 사용자들에게 수준높은 서비스가 제공되도록 관리해야 한다.

응답시간은 서비스 품질을 평가하는 요소중 하나다. 일반적으로 응답시간은 사용자가 인식하는 서비스 처리 시간이다. 즉, 사용자가 서비스 요청을 입력한 후 소요되는 사용자 단말의 처리시간, 네트워크의 전송지연시간, 서버의 처리시간을 합한 것을 의미한다. 장애가 발생한 후 가장 먼저 가시적으로 확인 할 수 있는 현상은 응답시간이 늘어난다는 것이다. 응답시간을 평가하는데 기준이 되는 항목은 평균 응답시간, 최대 응답시간, 응답시간 표준 편차, 임계치 초과 횟수 등이 있다. 이러한 정보를 이용하면 특정 날짜 특정 시간대에 네트워크 사용자가 느끼는 응답시간에 대한 평가가 가능하고, 구성상의 문제, 병목현상 등을 해결함으로써 서비스 품질을 높일 수 있다.

이들 5가지 항목은 모두 네트워크 사용자에게 제공되는 서비스 품질을 평가하고, 업무의 생산성을 높이기 위한 기준으로 활용 가능하다. 또한 투자된 자원이 지향하는 네트워크 서비스 수준 및 투자의 효용성을 판단하는 지표로 사용할 수 있다. 궁극적으로 경영차원에서 의사 결정을 하는데 유용한 정보로 사용할 수 있을 것이다.


브랜드 뉴스룸