시스템 장애는 왜 두 번 일어났을까? - 미즈호은행, 동일본 쓰나미 그 후 시스템 장애에서 얻은 교훈
[닛케이 컴퓨터] 편집부 지음, 이영희 옮김 / 한빛미디어 / 2012년 7월
평점 :
절판


재난 영화 또는 소설에 의하면 인간이 만든 로봇과 기계 또는 전산시스템이 오작동되어 편익인 커녕 오히려 인간에게 엄청난 재앙으로 다가온다는 내용의 경고성 스토리를 다룬다. 새로운 밀레미엄을 맞이할 즈음 국내에서도 소위 'Y2K' 문제로 모든 금융기관 내지는 기업들이 밀레미엄 버그를 방지하기 위해 선투자를 감행했다.

 

우리가 늘 사용하는 컴퓨터나 스마트폰 등에 갑자기 시스템 장애가 생긴다면 어떤 일이 벌어질까? 각종 스케줄 관리표가 사라져 허둥대야 하고, 고객들의 전화번호가 기억나지 않아 연락을 못하거나, 폰 뱅킹으로 시골에 계신 부모님께 용돈을 보낼 수 없는 등 황당한 경험과 마주하게 될 것이다.

 

얼마전 사용하던 폴더형 휴대폰이 길바닥에 강하게 떨어지면서 부서지고 말았다. 바로 A/S센터를 찾아 수리를 부탁했다. 그런데, 이 모델이 오래된 구형이라 부품자체를 구할 수 없어 수선이 불가능하며 더 큰 문제는 휴대폰에 저장된 데이타도 전혀 복구할 수 없다는 것이었다. 이를 통해 때로는 아날로그가 필요하다는 교훈을 얻었다. 지금은 전화부에 일일히 기록해 둔다. 

 

이 책은 2002년과 2011년 두 번이나 대규모 시스템 장애를 일으켜 은행을 이용하는 수많은 고객들에게 불편을 초래했던 미즈호은행의 시스템 장애 사건의 적나라한 고발이며, 또한 이런 장애를 방지하기 위한 시스템 관리 방법과 경영 방식에 대한 방향을 제시하고 있다.

 

 

 

 

1999년 8월 20일 다이치간교은행, 후지은행, 니혼코교은행의 총재 3명이 함께 '전면 통합'을 전격적으로 발표했다. 통합으로 재탄생한 회사가 바로 미즈호파이낸셜그룹이며 2002년 미즈호은행, 미즈호코퍼레이트은행, 그리고 미즈호증권으로 각각 분사했다.

 

'세 은행의 전면 통합'은 일본의 IT 역사에 반드시 기록될 것이다

 - <닛케이 컴퓨터> (1999년 9월 13일호) 중에서 

 

당초 세 은행은 IT를 재구축해 금융 비즈니스 세계에서 생존하자는 목적이었다. 그러나, 당초 취지와는 달리 명확한 경영 전략과 비즈니스 구조를 만들기 못하고 헤매고 있었다. 합병이나 통합은 보통 '100일 승부'라고 말한다. 내부 의견 조율에 실패하여 허둥대다가 2002년 4월 1일 합병을 맞이했다.

 

통합의 최대 난관은 대형 컴퓨터를 사용하는 계정계를 비롯한 핵심 시스템이다. 계정계는 예금, 융자, 내국환이나 외환 업무를 처리한다. 세 은행이 합병되면 셋이던 계정계시스템을 하나로 통합해야 한다. 더구나 비슷한 규모의 세 은행을 두 은행으로 재편하므로 화합보다는 오히려 갈등으로 대치하는 상황 때문에 정보시스템의 통합은 멀고도 먼 길이었다.

 

계정계시스템의 통합은 크게 두 가지 방법이 있다. 첫 번째, 완전히 새로운 정보시스템을 구축하여 기존의 것을 전부 이관하는 것이다. 두 번째, 생존 기업의 시스템을 남기고 나머지는 모두 여기로 이관시키는 것이다. 그런데, 어떤 방법이든 기존 시스템을 유지하다가 마지막에 하나의 시스템으로 옮긴다. 여기서 복잡한 요인은 각 은행의 시스템이 다 다르다는 것이었다.

 

정보시스템의 통합 프로젝트는 통합후 새로운 은행이 어떤 전략을 채택할 것인가에 맞물려있다. 즉 새로운 시스템의 모습이 결정되면 기존 시스템에서 부족한 부분은 새로이 개발 보완되고 불필요한 것들은 하나씩 폐기하게 되는 것이다.

 

그렇다면, 통합 프로젝트를 진두 지휘하게 될 대표 총재인 후지은행의 야마모토 총재는 이에 대해 어떤 생각을 하고 있었는지 알아보자. 왜냐하면, 그 어느 때보다 리더십이 요구되는 대형 프로젝트이기 때문이다. 합병이란 단순히 하나가 되는 산술이 결코 아니다.

 

"앞으로 시스템 통합과 전략 시스템의 개발 일정에 대해 구체적으로 검토하고자 한다.

기자회견 전에 시스템 부서장에게 서둘러서 검토를 시작하라고 지시했다"

 - 야마모토.후지은행 총재

 

이 답변에는 몇 가지 문제점이 내포되어 있다. 정보시스템 통합 문제를 기술적인 문제로만 보고 경영적인 판단을 고려하지 않고 있다는 점과, 같은 업종의 컴퓨터라 쉽게 통합할 수 있다고 생각하는 점과, 시스템 부장에게 업무를 일임한다는 전략적 사고의 부재 등이 나타났다.

 

후지은행니혼코교은행의 눈에 보이지 않는 경쟁, 예상치를 훨씬 뛰어넘는 통합 비용, 제각각 진행되는 계정계시스템의 통합 작업, 미비한 프로그램, 온라인 처리를 위한 통신 프로그램의 난관 등을 안고 있었음에도 다이치간교은행의 시스템 담당 임원 CIO는 문제가 없다고 선언하면서 2002년 3월 29일 오후 10시 역사적인 신新 시스템으로의 전환에 돌입했다.

 

계좌이체 처리가 원할하지 못했다. 3월 31일 분의 이체 처리가 완료되지 않아 계정계시스템 전체가 멈추게 되었다. 계좌이체가 종료되지 않아 확인 작업을 시작할 수 없는 '대기 상태'가 지속되고 있었다. 하는 수가 없어 4월 1일 오전 7시에 계좌이체를 종료시키지도 않고 계정계시스템 전체를 풀가동했다. '모 아니면 도 였다'

 

시스템 장애와 복구 상황

 

4월 1일후지은행 이외의 ATM에서 구 후지은행 현금카드를 사용한 거래 불가

           직불카드 서비스 불가

           현금 인출이 안되면서 잔액만 줄어드는 147건의 문제 발생

 

4월 6일 이중 인출처리를 수정했지만, 미수정분 1,000건이 남음

 

5월 1일 계좌이체 결과 데이터를 일반적인 방법으로 전환하여 재개 

 

이후 계좌이체 장애를 처리코자 불철주야 수작업을 진행했다. 데이터 변환 작업을 2004년 7월에 끝내고 12월까지 이행 작업을 진행했다. 구 후지은행의 시스템을 바탕으로 한 정보계시스템은 2004년 6월에 일원화를 끝냈다. 2004년 12월 미즈호은행은 정보시스템 일원화를 종료했다. 경영 통합 발표후 5년 4개월이 지난 시점이었다. 

 

 

2011년 3월 14일 미즈호은행에 의연금 이체가 몰리자 대규모 장애가 또 다시 발생했다. 동일본 대지진이 난 직후, 의연금 이체가 몰리자 미즐호은행의 계정계 시스템에 일일저장가능한 거래명세 건수가 상한값을 초과했다. 이 때가 오전 10시 16분이었다.

 

은행 통장을 이용한 사람은 쉽게 이해될 것이다. 통장 1행이 거래명세 1건이다. 그런데, 거래 건수가 상한값을 초과한 이유는 a계좌의 설정을 잘못했기 때문이다. 일반적으로 송금이 몰릴 것으로 예상되는 계좌는 통지예금으로 등록한다. 이는 거래명세를 기재하지 않는다. 따라서, 거래명세 건수가 상한값을 초과하는 일이 결코 발생하지 않는다.

 

의연금 송금은 오후 3시가 지나도 계속 쇄도했다. 낮 동안 밀려든 a계좌의 송금 데이터를 처리하던 야간 배치처리도 오후 10시 7분에 비정상 종료되었다. 이 처리 건수도 상한값을 초과했기 때문이다. 처리 건수에 상한값을 두는 이유는 정보시스템의 처리 용량에 한계가 있기 때문이다. 그런데, 여기서 문제점은 시스템 담당자가 설정 처리의 존재를 몰랐다는 사실이다.

 

미즈호은행은 구 다이치간교은행의 계정계시스템을 사용하고 있었는데, 'STEPS'라는 이 시스템은 1988년에 가동된 것으로서 무려 23년 전의 정보처리 설계였던 것이다. 그런데, 설계상의 문제점을 23년이나 방치한 채 사용해왔고, 이것이 시스템 장애를 불러온 것이었다.

 

시스템 당담자는 17시간이나 지나서야 시스템 담당 임원에게 보고했다. 어느 조직이든 있는 일이지만 자신이 처리하겠다고 보고도 없이 해보다가 결국 안되면 나중에 보고하는 일이 왕왕있다. 담당 임원은 서비스 개시가 늦어지는 걸 막고 싶어서 온라인 처리 준비에 들어갔다. 그러나, 시스템이 뜻대로 움직여주지 않았다. 15일 오전 9시, 사과인사 하기에 바빴다.

 

"죄송합니다. 시스템 장애로 거래를 접수할 수 없습니다" 

 

미즈호은행은 '비정상 처리 시나리오'를 자동운용시스템에 적용하지 않았다. 운용 매뉴얼도 준비되지 않았다. 시스템 담당자가 즉흥적으로 비정상 처리 시나리오를 만들어가며 밤새 작업을 했다. 매뉴얼 부재와 즉흥적인 수작업은 오류를 양산하면서 장애는 더 확산되었다. 16일 아침 ATM 장애가 발생하고 말았다.

 

악순환이 지속되자, 미즈호은행은 마침내 두 가지 결단을 내렸다. 첫째, 정보시스템의 계획 정지다. ATM이나 인터넷 뱅킹 등의 서비스를 정지시켰다. 둘째, 연휴 3일 동안 ATM을 중지하는 대신에 지점을 오픈하여 현금 인출을 허용했다. 계좌 잔액이 확인되지 않아도 예금자를 위해 10만 엔까지 지불했다. 

 

'동작하지 않는 컴퓨터'를 없애는 십계명

 

경영진이 시스템 도입을 지휘하고, 전사의 이해를 바탕으로 프로젝트에 직원을 투입한다

여러 시스템 개발 회사를 비교하여 자사에 가장 정통한 업체를 선택한다 

시스템 개발 회사를 하청 취급하거나 개발비를 깍지 않는다

시스템 구축에 관한 능력을 파악하여 무리하지 않는 계획을 수립한다

사내의 책임 체제를 명확히 한다

설계나 요건 등 상위 공정에 시간을 투자하고, 요건 확정 후에는 변경하지 않는다

개발 진척은 자사에서 파악하고 테스트와 검사에 많은 시간을 들인다

시스템 가동시까지 포기않고 모든 수단과 방법을 도입한다

시스템 개발 회사와 유상 A/S 계약을 맺는 등의 방법으로 유지보수를 확립한다

'부주의로 인한 오류'를 경시하지 말고 근본적인 대책을 수립한다

 

 

장애는 언제든 발생할 수 있다. 위기 상황의 발생시에 경영진의 역할이 운명을 좌우하는 법이다. 따라서, 시스템을 모르면 차라리 집으로 보내야 한다. 미즈호은행은 시스템 장애가 두 번씩이나 발생했다. 단순한 '운영 오류'는 9년 전의 시스템 장애로 충분했다. 두 번째의 장애는 경영진의 '판단 오류'에 기인한다. 이러한 장애는 어느 회사에도 발생할 수 있음을 깨닫고 유비무환의 자세를 견지해야 비즈니스의 연속성이 보장된다 하겠다.

 

우리 회사 전산시스템은 안녕한가?

 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo