みずほ銀のトラブルから学ぶ
こんにちは。フィックスポイントの冨です。
10月になっても東京は気温30度の予報が出るくらいの残暑です。
まだまだ半袖の人も多いですね。
以前に本メルマガで取り上げたWindows11もリリースされ、
デジタルの日も終わりました。
デジタル庁も正式発足してから、いきなりデジタル大臣も変わってしまいました。
時間の流れの速さを感じる今日このごろです。
最近、システム運用周りでの大きい話題といえば、みずほ銀行のATMトラブルかと思います。
システム統合プロジェクト関しては昨年に書籍化されるなど、大きな話題となりました。
その新システム”MINORI”は今年に入ってから障害が頻発し、金融庁からの業務改善命令が発出されるという事態になりました。
みずほ幹部「システム使いこなせず」 機器の故障頻発(日本経済新聞 10/8)
https://www.nikkei.com/article/DGXZQOUB084DC0Y1A001C2000000/
書籍からは読み取れたのは、開発期間中に紆余曲折あったものの、結果としては新しい基盤が完成して、あとはサブシステムを改善していけば良いという見通しでしたが、運用で大きな失敗を重ねてしまっています。
障害の直接の原因はハードディスク障害と発表されておりましたが、Twitterの投稿などからは、待機系DBへの切り替え手順のオペレーションミスであり、明らかにヒューマンエラーであろうとの指摘もあります。
1次情報が無いので分からないところも多いですが、オペレーションミスを招いたドキュメントの不備や熟練エンジニアの配置転換の是非、故障傾向が顕著になっていたハードウェアの扱いなど、現場レベルから経営レベルまで、多くの段階で先送りされた時限爆弾が破裂した感もあります。
改善案も構築当時のエンジニアの呼び戻しとありますが、言い換えれば運用業務が属人化していた事に気づかずに人を動かしてしまったという事でしょう。
ミッションクリティカルなシステムの運用業務の反面教師としてみれば、いろいろな教訓が詰まっていると思います。
少なくとも現場レベルの話に落としてみれば、ドキュメントの更新やハードのメンテなど、様々な先送りの積み重ねが大事故の元につながるわけです。