システム監視とアラート地獄
こんにちは。フィックスポイントの冨です。
システム運用の業務の一つに「監視」があります。
管理下のシステムが正常に動作しているか、 異常が発生しそうな予兆が無いかを常時モニターするわけですが、 ひとたび異常が発生した場合には、
通知に気づかずに取りこぼしてしまうと、 対応が遅れてサービス停止時間が長引くリスクがあるため、 心情的にはいろいろな監視ツールから、 あらゆる異常を知らせてもらうべく通知設定を入れがちです。
これらが積み重なり、またシステム規模が拡大してくると、 日常的に大量のアラート通知を受け取るようになります。
クリティカルな障害通知以外にも、 取り扱い商品がTVで紹介されて一時的に負荷が高まったECサイ
一定規模のシステム運用をされている方はご承知の通り、 これらを全て受信しているとメールボックスは大量のアラートメー
アラートが常態化してくると「オオカミ少年効果」にも似て、 アラートを過小評価したり無視することもあります。
また、重要な障害通知の場合でも、
つまりシステム運用を行う以上は、
今月リリースしたKompira AlertHubは、そのような通知処理の自動化を行い、 重要なアラートのみを確実にエンジニアに届けるための基盤を目指
来月開催する”kompiraミーティング2020″では、
アラートの処理にお困りの方にはご興味をお持ち頂ける内容と思い