オージス総研の野々峠です。
本日はオージス総研が進める、無人オペレーションの実現を目指したシステム運用自動化についての取り組みをご紹介します。
当社は、Daigasグループのシステム運用を預かっており、近年はクラウド技術のバリエーション増加などの変化に対応しながら、安全したスマートなシステム運用の提供を進めています。
ここ数年はハイブリッドクラウド環境下での運用自動化に注力しており、昨年度、その成果をメニュー化し、『Cloud Arch』という名称でサービスの提供を開始しました。
以降で、運用自動化の取組み、サービス提供に至るまでの取組みについてご紹介いたします。
会社概要
最初に、当社オージス総研について紹介をさせていただきます。当社は、1983年設立の大阪ガスIT子会社となります。
Daigasグループ向け、およびグループ外のお客様にシステム開発やシステムサービスを提供しています。
オージス総研グループには、さくら情報システム、宇部情報システム、SAPに強いアグニコンサルティングなどを含まれます。
海外ではシリコンバレーにオージスインターナショナルを置いており、技術、方法論などを取込んでいます。
「オブジェクト指向」や「アジャイル開発」など、いち早く国内に持ち込み、実績を上げています。
事業領域
当社は、大きく5つの領域で活動しています。製造、金融、エネルギーなど様々な業界のお客様に向けて、特定のベンダーや製品にかたよらない立場で、
コンサルティングから企画・構築・運用保守まで一貫してソリューションやサービスを提供しております。
私が所属するプラットフォームサービス本部は、Daigasグループとグループ外のお客様に、
システム基盤の構築維持、基盤サービスや運用サービスをご提供する部門となります。
運用自動化の取り組み
本日はそのプラットフォームサービス本部で2017年度より開始した運用自動化についての取組みをご紹介します。私たちは2017年に運用自動化の検討を開始、2018年からフィックスポイント社のKompiraを利用した運用自動化を開始しました。
以降、Daigasグループで運用自動化範囲を広げながら、グループ外のお客様でも経験を積んできています。
昨年度、これまでのノウハウ、成果をまとめ、『Cloud Arch』として、運用自動化サービス提供を開始しました。
本日は、『Cloud Arch』提供までの取組み、あわせて実施している人材育成、現在進めている運用自動化の高度化を狙ったAIOpsの取組み等をご紹介します。
2017 システム運用業務の増加
まず、当社が運用自動化に取組みはじめた、経緯をお話いたします。当社は、大阪、東京のセンターとバックアップサイト、パブリッククラウドにおいて、
Daigasグループ、およびグループ外のお客様のシステム運用をお預かりしています。
システム運用業務はメインフレームと数百のサーバを対象に定常業務、ジョブ運行、監視業務、障害時オペレーションや、 システムの維持で必要となる変更作業の申請対応、運用品質の管理業務を提供しています。
クラウドサービスの利用増
ここ数年は、市場でのパブリッククラウド活用増加に伴い、当社のお客様もパブリッククラウドの利用が加速しています。また、従来は単一のパブリッククラウドを利用するものが多かったのですが、近年は複数のパブリッククラウドを利用するケースが増加しています。
お客さまのクラウド利用の増加に合わせる形で、クラウドに関連するオペレーション作業量も年々増加し続けました。
システム、サーバ、利用サービスの数が増加、作業のバリエーションも増加していました。合わせて、アラート件数は年間24万件、依頼書作業数は年間10万件に達してしまいました。
しかしながら、システム運用に対するコスト低減圧力は変わらず残っていたため、人手を増やして対応することは現実的ではありませんでした。
2018 システム運用自動化に着手
このような背景から当社は作業をプログラムで実行し、人を作業から解放する運用自動化に着手することを決めました。当時、運用作業量の増加は、システム運用の「品質」、「コスト」、「納期」のすべてに影響を与えており、これらの解消が急務でした。
また、作業量の増加は今後も続く見込みであったため、人数に頼った打ち手はシステム運用の破綻に繋がると考えていました。
また、人手や人数に頼った打ち手では、メンバへの動機付けも弱く、解消が進まないとも考えていましたので、当時、クラウドインテグレータが取組み始めていた「プログラムコードによるシステム運用」=「運用自動化」に舵を切りました。
どの業務から自動化するか
まず、運用自動化を進めるにあたって、喫緊に対応する作業の検討から着手しました。私たちはシステム運用の各業務にかけている作業時間を集計・分析し、監視業務、変更申請・管理等に関する依頼書業務に過半数の時間を要していることを確認しました。
効果が見込めるか
さらに、「監視業務」、「依頼書業務」について自動化した場合の効果がどの程度見込めるかという観点で分析をすすめました。「監視業務」はアラート件数が年々増加傾向にあること。クラウドを利用したシステムなど、重複したアラートへの対応、エスカレーション対応にかかる作業時間が増大していました。
これらの自動化は効果は大きいと判断し、自動化対象としました。
「依頼書業務」はシステムリリースやメンテナンス等の作業は休日や年度末などに偏り、ピーク時は、作業時間帯も集中するため、オペレータの臨時出勤などが多発しており、運用体制の変動が大きくなっていました。
これらの変動を抑えることができれば、平日を含め、業務全体のスループットが安定・向上すると判断。
こちらも自動化対象としました。
目標:監視業務と依頼書業務の無人オペレーション
これらの業務は、運用作業時間の半分以上を占めますが、プログラムコード化しやすいと判断し、無人オペレーション化を目指しました。運用作業時間の半分以上を占める作業を自動化であることから、作業に従事するオペレータ数の半減を目標としました。
運用自動化の効果を早期に享受するため、運用作業の基本的な流れは大きく変えずムダは省き、作業のプログラムコード化を進めてきました。
2021年現在、自動化で置き替えた作業時間は9,000時間。対応しているオペレータは着手後5名を減員。計画通りに運用自動化を進めています。
運用自動化環境
こちらが運用自動化環境の概要図です。アラート対応作業、各種依頼の管理作業など、これまで人手で対応してきたものに対し、「プログラム・スクリプトを作成し、Kompiraでフローを実行する。単純ではありますが、再利用性も高く、品質も安定しています。2019以降 自動化範囲の拡大
先行して着手した「監視業務」、「依頼書業務」で運用自動化の成果が出始めたことから、2019年からは自動化範囲を拡大していくことになります。システム運用業務全体へ
社内外で運用自動化の成果を示せるようになったこともあり、運用自動化メンバのモチベーションが高まってきていました。これを機に、他の業務も対象にさらに運用自動化進めることとしました。しかし、この残り4割の業務については、パブリッククラウドで提供されている新しい技術の習得や、対応するにあたって、システムエンジニアが担うような判断が必要となることが多くメンバの教育も並行で進めながら、運用自動化を進める必要がありました。
自動化拡大に向けた対応
どのように進めるか、ここでも検討しましたが、私たちはGoogle社が提唱しているSREを参考に定常業務、障害対応の運用自動化を3つの機能に分け、新しい技術の習得、対応力の向上を進めました。1つ目は、目にあたるモニタリング。様々な新技術が利用される中、動作、稼働の情報を適切にとらえるための機能強化を進めます。
2つ目は、能にあたる分析。モニタリングでとらえた情報から、処置に判断が必要となるケースで人の関与を軽減する機能を追加します。
最後は手にあたる、自動化。従来人手で実施してきた障害対応などのより複雑な作業をプログラムコード化、自動化のバリエーションを増やします。
運用自動化サービス「Cloud Arch」として実現
ここでポイントとなるのが、これまで進めてきたルールベースの運用自動化に加え、AI分析による運用自動化の実装に着手することです。まず、障害対応作業等で状態・状況を確認する際、人が判断しながら実施している作業を抽出し、実装に着手することとしました。
機能追加にあたり、自動化処理がカオスにならないように共通化をすすめました。
既にルールベースの運用自動化が数万処理が稼働していたため、その時期に来ていました。共通化により、作成済みプログラムを再利用しやすくし、作成効率を上がることもできます。
現在、自動化処理の共通化(テンプレート化)を進めています。
この対応により、自動化処理のテンプレートが出来上がってきたため、運用自動化を提供しやすくなりました。のちに、運用自動化サービス「Cloud Arch」としてリリースすることになります。
無人オペレーションに向けたロードマップ
現在取り組んでいる運用自動化の拡張は一足飛びには実現できないため、モニタリング、分析、自動化でロードマップを設定し、進めています。直近では、「モニタリング」はクラウドネイティブなどの新技術を取込み、マルチクラウド、ハイブリッドクラウドの管理におけるベストプラクティスに基づいた改善を実施しています。
「分析」はルールベースで実装している判断を、時系列データ、自然言語データなどを用いて、ルール自体を作っていくことを検討しています。
「自動化」については定型作業、障害対応の手順、などの自動化を進めながら、自動化処理の共通化・テンプレート化を進めています。
人材育成
この取組み通じて、従来人手で実施していたオペレーションはシステムサービスで提供し、メンバはそれぞれ3つの機能を開発・改善する開発エンジニアへの転換をすすめていきます。育成(クラウドエンジニア)
ここでは、新たに取組む機能を開発するエンジニアの育成について、ご紹介します。まず、クラウドエンジニアですが、プラットフォームサービス本部の施策として、OJT,OffJTを活用し、クラウドエンジニアを100名育成する取組を進めています。
加えて、必要な技術を体系的に蓄積するために、クラウドネイティブにおいては、基盤開発部隊と協力し、Cloud Native Computing Fundationの資材を活用した標準プロダクト選定、プロダクト実装コード、制御用コードの標準テンプレート化に取組んでいます。
また、クラウド運用においては、AWSのWell-Architectedに基づき、当社運用実績を整理した運用フレームワークを作成し、実運用への適用を開始しています。
育成(分析エンジニア)
同じく新たな取組となる分析エンジニアの育成については、従来からAI技術に取り組んでいた当社R&D部門に弟子入りする形でそのスキルを習得しはじめています。また、AIOpsで利用するAIの要素技術については、既にいくつかの成果があるため、システム運用のユースケースとこれらの技術の適合性など検討しはじめています。
育成成果
これら2018年以降の育成については、AWS,CNCFの認定を取得するなど、一定の成果が出始めています。現在もいくつかの認定を目標に育成を進めており、自分たちの成長に私たち自身も期待しています。
無人オペレーションを目指して Cloud Arch
最後に、私たちが実装してきた運用自動化の機能を、「CloudArch」でご提供していますので、その一部をご紹介いたします。モニタリング
システムの動作・状態をとらえるモニタリングは、ハイブリッドクラウド環境に対応しており、オンプレミス、AWS、Azure環境に対応しています。現在、Googleクラウドの対応を計画しています。育成で紹介した取組みを進めた結果、「クラウドネイティブ」の技術にもいち早く対応しており、今後も機能評価を進めて行きます。
自動化メニュー
自動化機能ですが、私たちが取り組んだ運用自動化の成果を、運用管理のカテゴリに分け、再利用しやすい形にテンプレート化しています。これらのテンプレートを利用することにより、本番運用で効果を出した機能をより短い期間で本番運用に活用できるようにしています。
自動化ユースケース例
自動化機能については、各運用管理のカテゴリでユースケース毎に、作業フロー、処理プログラムをテンプレート化をしており、今後もそのストックを増やして、ご提供してまいります。ご利用ケース
また、利用にあたっては、スモールスタートできるように、モニタリングだけ、自動化だけなど、必要な機能のみを選んで利用いただけます。さらに、選ばれた機能のメニューから、個別のユースケースに応じた自動化処理を選び、対応が必要になった時点で利用を開始いただけます。
スケールアウト型でのご利用事例
最後にこの「 CloudArch」を用い、スモールスタートで運用自動化を進めた事例ついて紹介します。このケースは、人手中心で対応していた「監視アラートの連絡」、「1次対応」について「イベント管理」のメニューを利用し、自動化を進めたものになります。
要件定義から本番運用まで、3.5ヶ月で対応しています。サービスを継続利用していただく事により、年間3600時間分の作業を自動化で代替する成果を上げています。
これは年間約2名の作業をプログラムコードに任せたことになり、その2名でさらに自動化を進めるというサイクルを築いているという事例になります。
本日ご紹介したAIOpsなど、現在開発中の運用自動化機能も順次リリースしてまいります。
今後も「CloudArch」にご期待ください。
これからも、オージス総研は無人オペレーションの実現を目指し、企業の生産性向上に寄与してまいります。ご清聴ありがとうございました。