こんにちは。フィックスポイントの冨です。
東京証券取引所のシステムダウンの件は、皆さんもニュースなどで御覧になったかと思います。 記者会見では、報道陣からは例によって責任追及がなされる一方で、 意外にも、IT業界人から評価は非常に高いものでした。
記者会見を見ても、横山CIOは各システムの構成や動きについても 理解してお話されているのが分かりますし、 社長も安易にベンダーに責任回避せずに、 きちんと質問に正対している対応は素晴らしいと思います。
あえて難を言うなら、証券会社も含めた復旧プロセスがうまく連携が取れていなかったようで、 終日の取引停止と、障害が長引いてしまったことでしょう。
報道によると共有ディスクサーバーのメモリー障害であったとの事ですが、 おそらくは完全にダウンしない半死半生状態で、フェイルオーバーのトリガーが かからなかったのかと思いました。
私も経験があるのですが、何らかの原因で処理過多になっているだけか、 故障なのかの判断が難しい局面がありますね。
特にデータの整合性が重要なシステムですと、途中で止めるのは非常に勇気がいります。
冗長化もフェイルオーバーも作り込み、入念にテストを行っても、 それでも対策や検知が難しい壊れ方をして、意図通りに復旧しないこともあります。
同じ週にOffice365の障害などもあり、巨額の資金と一線級の技術を投入した 世界先端クラスの巨大クラウドサービスでも、 なお障害が発生するという現実があります。
つまりはシステム設計・運用において 「絶対に止まらないシステム」というのは理想でありがながらも、 レジリエンス=回復容易性を重視する方向に価値観が変わっていくのは 自然な流れなのでしょう。
またインシデントレスポンスの素早さも特筆すべきでした。
仮に自社でインシデント発生した際に、顧客対応も含めた障害対応フローや ドキュメント類の整備状況、人の動き方、SLAなどを 今一度確認するのが、あのインシデントからの教訓と思います。