システム障害の教訓
3/15にマクドナルドがシステムトラブルにより、一部の店舗では手作業での販売を継続していたようですが、大多数の店舗では休業を余儀なくされました。日本だけの話かと思いきや、影響は世界中のマクドナルドに影響していたとのことです。
トラブルの原因に関しては、サイバーセキュリティー関連の問題ではなく、サードパーティー・プロバイダーによる設定変更の際に生じたものと説明がありました。
Update on Global Technology System Outage
https://corporate.mcdonalds.com/corpmcd/our-stories/article/global-tech-outage.html
「サードパーティー・プロバイダー」が何を意味するのかは現時点では不明ですが、世界規模で影響したことを考えるとクラウド基盤が推測されます。以前にはAWSの事例でマクドナルドが紹介されています。
毎秒8600件のトランザクション処理とは、バケモノ級ですね。
https://aws.amazon.com/jp/solutions/case-studies/mcdonalds/
また昨年12月にはGoogle Cloudを利用するための戦略的パートナーシップを発表
https://corporate.mcdonalds.com/corpmcd/our-stories/article/mcd-google-cloud-announce-partnership.html
いずれ何らかの発表があるのかもしれませんが、設定変更のオペミス、または想定外の挙動が原因で、世界中で営業が停止したというのは、逸失利益の請求の可能性などを考えると、展開によってはシビアな事態です。
マクドナルドのような世界ブランドの重要システムであっても、予期せぬシステム障害を免れることはできません。
・クラウド障害に備えたオンプレミス環境でのバックアップ
・ハイブリッド運用による冗長化
・スタッフへの障害時の対応訓練
etc
危機管理プラン、いわゆるBCPの準備の重要性は強調しすぎることはないでしょう。