지난 1일 밤부터 2일 아침 8시경까지 11시간 동안 SC제일은행의 인터넷뱅킹과 현금입출금기(ATM) 서비스가 중단되는 사고가 일어나 이용자들이 피해를 입었다. 은행 시스템 중단은 이용자 불편은 물론 금전 피해를 입을 수 있다는 점 때문에 민감한 사고다.
A은행의 B팀장은 제일은행 사고 소식을 듣고 기억하기도 싫은 지난 해의 기억을 떠올렸다. 지난 해 A은행은 전산중단 사고로 큰 홍역을 치렀다. 당시 원인은 인터넷뱅킹, ATM 서비스용 서버에 연결해 저장장치 역할을 하는 스토리지 디스크의 가동 중단이 문제가 됐다.
디스크와 정보를 주고받는 과정에 오류가 생기면서, 디스크를 구동시키는 역할을 하는 IC기판인 컨트롤러에 에러가 발생한 것. 문제가 발생했을 때 작동하도록 한 백업 시스템도 함께 동작을 멈추면서 전체 시스템이 먹통이 돼버렸다. 진땀을 뺀 끝에 결국 몇 시간만에 기판을 교체해 시스템을 정상화시킬 수 있었다.
2일 발생한 제일은행의 사고를 1차 분석한 결과, 고장원인과 현상, 복구방법 등이 지난 해 A은행의 경우와 거의 흡사한 것으로 나타났다. 문제는 지난 해 발생한 국민, 농협 등 최근 은행 시스템 사고의 50% 가량이 바로 스토리지 디스크에서 발생한다는 점이다.
은행 관계자들에 따르면 스토리지 디스크는 다운되면 인터넷뱅킹, ATM 등 서비스를 관장하는 모든 서버가 작동을 멈추는 중요한 부분임에도 불구하고 장애가 잦은 편이다. 백업 시스템 때문에 드러나지 않을 뿐이라는 것이다. 한 관계자는 “최근 대형사고는 모두 디스크 장애라고 봐도 된다”며 “데이터 저장이 시스템에서 가장 중요한 부분인데 안정성이 허술하다는 것은 사실 큰 문제”라고 말했다.
콘트롤러와 같은 부품 고장의 경우 복구시간이 길어져 피해가 더욱 크다. 이번 제일은행의 경우도 서버와 스토리지가 대부분 IBM 한 회사의 제품으로 이뤄져 원인분석이 상대적으로 쉬웠음에도 11시간이 지나서야 원인파악을 마치고 부품을 교체해 시스템을 복구할 수 있었다.
제일은행 관계자는 “콘트롤러와 같은 하드웨어에 문제가 생길 경우엔 사전 경보도 잘 주어지지 않기 때문에 이번처럼 백업시스템까지 함께 멈추는 경우 대응이 어렵다”고 말했다. IBM 관계자는 “다른 회사 장비도 섞여 있기 때문에 원인파악 전까지는 IBM 스토리지에서 문제가 발생했는지 확실치 않다”고 해명했다.
대부분 외산장비기 때문에 세부적인 원인 분석도 어렵다. A은행은 “사고 몇 주후 스토리지 제조사의 본사 엔지니어팀이 알려온 원인은 IC보드에서 복합적인 문제가 발생했다는 정도였다”며 “콕 찝어 해결할 수 없는 부분”이라고 전했다.
현재로선 뚜렷한 대안이 없다는게 문제다. 재해시 연결되도록 한 DR센터는 일부 꼭 필요한 기능만 처리하도록 했기 때문에 재난 재해시가 아니면 가동하지 않는다. 모든 기능을 갖춘 DR센터 구축은 비용부담이 크다. 스토리지 업계 한 관계자는 “내부 재해복구 센터의 범위를 점진적으로 확대하면서 내부 규약에 따라 장애 대응시간을 줄이는 목표를 세우는 것이 중요하다”고 말했다. 김용석기자@전자신문, yskim@ 류현정기자@전자신문, dreamshot@
SW 많이 본 뉴스
-
1
모바일 주민등록증 전국 발급 개시…디지털 신분증 시대 도약
-
2
삼성SDS, 클라우드 새 판 짠다…'누리' 프로젝트 띄워
-
3
제주도에 AI 특화 데이터센터 들어선다…바로AI, 구축 시동
-
4
공공·민간 가리지 않고 사이버공격 기승…'디도스'·'크리덴셜 스터핑' 주의
-
5
삼성SDS, 병무청 행정 시스템 클라우드 전환 맡는다
-
6
전문가 50명, AI기본법 개정 머리 맞댄다
-
7
오픈AI, 코어위브와 클라우드 계약…MS와 결별 가속화되나
-
8
마케터, 생성형 AI 의존 심화…사용자 신뢰 잃을라
-
9
[뉴스줌인]경기 침체 속 오픈소스 다시 뜬다…IT서비스 기업 속속 프로젝트 추진
-
10
산·학·연 모여 양자 산업 지원…NIA, 양자 클러스터 기본계획 마련 착수
브랜드 뉴스룸
×