自動化の次の課題としてのAIOps
こんにちは。フィックスポイントの冨です。
最近、お客様の自動化の状況をヒアリングする機会が増えてきました。
導入のレベル感はまちまちですが、システム運用、業務操作を自動化~ジョブの1クリック実行まで作り込んだ現場での、次のチャレンジ課題を伺うと、「AIの導入」とお答えされる場合が多いです。
自動化というと最近ではRPAですが、この場合でのAI導入はOCRの領域で進んでいます。すなわち、紙のドキュメントをスキャンしてデータ化する際に、どこの項目にどのような記述があるかを認識してデータ化するという目的です。
身近な例ですと、名刺をスキャンして氏名、社名、住所、TEL番号などを顧客DBに登録するといった用途です。
運用現場でのAI利用となるとちょっと趣が変わってきます。ログデータを分析した障害予兆、障害通知の意味解析などでの利用を想定され、実験に取り組まれている会社も増えています。
従来であれば人が大量のデータを見て判断を行っている部分をAIでサポートしようといった用途を想定されているようです。
例えば、ネットワークやディスクの使用率など、ある指標が一定の閾値を越えた場合にアラートを発するといった設定が、システム運用の場合の典型的なデータ利用法です。
一方、AIを利用する場合では正常値の範囲内であっても指標の変動パターンをみて、障害の予兆を探ったり、複数の指標間の関係性を推測して、発生したイベントとの相関付けなどを行える可能性があります。
AI/ML(機械学習: Machine Learning)の基盤としては、pytorchやTensorFlowなどを使って自作するケースもありますし、AWS, Azureなどのパブリッククラウドの機械学習基盤を利用する場合もあります。
今の所、汎用的にデータを処理するものがほとんどで、ログを送れば障害予兆検知などを行ってくれるような特化型サービスは、まだまだ少ないと思います。
こちらも自動化の導入と同様に、導入の取り組みは小さくスタートして知見を貯めていくといプロセスを踏んでおられます。また、オペレーターやソフトウェアエンジニアの範疇だけでなく、アナリティクス分野の知見も必要になってくるため、必要に応じて分析人材との協業も考慮にいれる必要が出てくるでしょう。
特に、定常状態と異常状態の指標の変化の傾向の違いや、定常と異常の境界線をどこに設定するかなど、ある程度、事例を貯めていく必要があるため、この分野では早めにスタートした方が有利に立てると思います。