2022/07/13
障害対応は事前の準備から
7月に入ってから大きい事故・事件が立て続けに起こっています。IT屋視点での大事故といえば、7/2深夜からのKDDI(au)の大規模通信障害でしょう。深夜1:35ごろに設備の定期メンテナンスで異常が発生し、音声通話の回線切替の際に設備に不良が発生。その個、5日午後3:36の時点で大規模通信障害の全面的な復旧を確認したと発表しました。
具体的には、音声通話を提供するVoLTE交換機が極端に接続しにくい状態となり、実質的に音声通話が行えなくなったことによります。額対象端末数は全国で最大約3900万回線にのぼり、ほぼ2日間にわたって影響を受けました。
回線異常によりauの利用者は通話・通信共に出来ず、連絡はもとよりキャッシュレス決済なども使えずにお困りになった方も多かったと思います。また、物流、交通、ATM、気象庁の観測データの収集など、多くの分野に影響が波及しました。
その一方で、事故が発生してから1日以上が経過した3日11:00ごろに、同社の高橋社長が記者会見を開いて経過説明を行いましたが、この会見がIT関係者の間では絶賛されました。通例、トップは謝罪を行い、経過説明は担当部門の現場リーダーなどが行う事も多いですが、本件では高橋社長自らが、概要説明、事実確認、影響範囲、原因、対応状況の時系列、さらにはテクニカルな質問に対しても幹部が的確に打ち返せているという点です。
また大規模障害が発生してからも速やかにトップに報告が上がり、30分後には事故対策本部が立ち上がるというスピード感も素晴らしく、良い組織はトラブル対応がしっかりしている印象を受けました。
もちろんトラブル無しで運用できるのがベストですが、形あるものは壊れるのが世の常である以上、問題発生時の流れについても情報共有の流れ、報告書の書き方から説明会まで、ある程度の枠組み・型を作っておくのがよいですね。
システムの構成図、ネットワーク図、設定情報やライセンスなどの情報の整備や、障害レベル評価の基準とそれらに合わせた対応を決めておきます。ユーザーへの対応や、障害発生時の連絡先や連絡手段なども決めておきましょう。
トラブルが発生すると叩かれがちなインフラ界隈ですが、一般の方々にも「インフラを支えること」に対する理解が進めばいいなあと思います。