インシデントとの向き合い方
こんにちは。フィックスポイントの冨です。
システム運用を始め、IT関連の仕事では、インシデントにより作業が停滞する場合があります。
インシデントには作業ミスやシステムトラブルで、ITILでは「システム運用を通して提供されるサービスが中断したり、サービス品質を低下させたりする出来事」と定義されています。平たく言えば、事故一歩手前の事象と言えましょう。
インシデントは管理簿などに記録して、定期的にレビューを行って対応されるのが良いわけです。
作業ミス、顧客クレーム、機器トラブルなどを分類して起票します。
簡易的にはExcelシートでも良いですし、チケット管理システムを用いても良いでしょう。
書き出しただけでは課題は解決しませんので、定期的にレビューを行い、それぞれのインシデントに対して
どのように取り組むかを決めていきます。
ただし、人・時間など解決に必要なリソースは有限ですので、すべてのインシデントに全力で対応するのは
難しい場合もあります。ビジネスへの影響度や緊急度を考慮して対応方針を決める必要があります。
例えば、次のような分類です。
1. 原因を完全に除去する
2. 原因を一部除去/代替手段の提供
3. 対応を効率化(解決しない)
4. 対応しない
例えば1.の場合は、放置しておくとビジネスが止まってしまうようなケースにあたります。
2.は解決が難しい、費用がかかりすぎるなどで、部分的に対応しようというものです。
3.は再現条件がわからないシステムトラブルや、まれな顧客クレームなど、発生した際に素早く対応すればOKで、インシデントの再発自体は許容しようといったケースが挙げられます。
4.も同様に影響が軽微なため、あえて何もしないという判断です。
インシデントというと「再発防止策」がセットになってきますが、作業ミスのような人的要素が大きいインシデントに関しては、「絶対にミスするな!」というのも難しいものがあります。
「二重チェック体制でミスが再発したので、トリプルチェックで。」のような、対応策としては効果が怪しい方向に行ってしまうこともあります。
指差し呼称の徹底などで作業品質を上げる努力や、手順の自動化&事前テストなど、作業手段を変えるといった方針など、いろいろとアイディアを出してみましょう。