皆様、こんにちは。興安計装株式会社の松田和重と申します。
本日は20年以上に渡りMSP事業へ携わってきた弊社が、システム運用の課題とどのように向き合ってきたかについてお話をしたいと思います。これが皆様の課題解決の一助となれば幸いです。
私は、入社してから5年ほどNWエンジニアとして伝送装置であるフレームリレーや、ATM装置の検証業務に携わってきました。その後、インターネットサービスを提供するサーバ機器やネットワーク装置の監視・運用保守をするマネージドサービスの運用部門のマネージャーを経験しています。
この時に、私はマネージドサービスの現場がいかに不合理であるかを経験しました。
具体的に申し上げますと、お客様から「あと二週間でサービス開始するんだけど、監視って何とかならない?」というご相談を受けることがあります。その話の中で「とりあえず何かあったらエスカレーションしてほしい」「後のことは走りながら決めましょう」と言われ、ざっくりとした内容で案件を受注します。しかし、走りながら運用の細かい部分を決めることは、非常に難しいのです。多くの場合、実際にサービスが動いてしまった時点で、それを止めて何かを考えることはまずできません。
また、運用するシステムごとに個別の手順があるため、手順書がどんどんと増えていきます。そのため、現場のオペレーターはそれらの手順をその通りに全て覚え、オペレーションを実施していくという流れが常でした。
そんな不合理な環境で私は5年ほどマネージャーを務め、改善を図るため【システム運用の標準化】を目指して様々なことに取り組んでまいりました。しかし、残念ながら大きな成果は無く、道半ばで営業・サービス企画、それら部門の管理職を受け持つことになりました。
私自身も営業の中で、不合理な仕事を「ありがとうございます」と言って受注し、現場のオペレーターを困らせたこともあるかと思います。
それからしばらくして、営業、サービスを提供する部門、弊社のオペレーションセンターを統括する仕事を任せてもらうようになりました。その際に「IE活動」という研修を受けることになりましたが、このIE研修というのは聞くも涙、語るも涙の大変厳しい研修です。中身については後ほどご紹介しますが、私はここで今回のお話のポイントとなる「全体最適」と「部分最適」の気付きを得ることができました。
その研修を通して、私は全体を統括する管理者として、「全体最適」を実行することの重要性に気付き、実際のシステム運用における効率化、自動化を推進することができました。そして今に至るというのが私の経歴です。
会社概要
「興安計装ってどんな会社?」という方も多くいらっしゃると思いますので、まずは弊社についてお話をさせてください。弊社、興安計装株式会社は1960年に愛媛県松山市で創立し、現在は愛媛県(松山市・新居浜市)、東京都、大阪府、山口県の計5拠点で事業を営んでいます。
続いて、会社の歩みについても簡単に触れます。
弊社は1962年に、各種プラントの製造設備・制御機器のメンテナンス、計装機器の設備計画・電気工事・通信工事および自動制御盤の設計・製作などを行う計装事業を立ち上げました。
また、1993年には、在宅医療機器関連の電子基板、検査・試験装置の設計・開発、製作・整備、メンテナンスおよびソフトウェアの設計・開発などを行うヘルスケア事業に進出しました。
そして、1995年にIT技術をベースにしたネットワーク事業に進出し、事業領域を拡大してまいりました。
以来、20年以上にわたり、通信、放送、輸送、医療、官公庁などにおけるITシステムやサービスの監視・運用・保守を行っております。
計装とは
弊社の社名には「計装」という言葉があります。そもそもこの言葉を聞いたことがないという方も多いかと思いますので、「計装」について少しお話をさせてください。計装とは、産業プラントの計測制御装置を装備し、点検、整備、校正の一連のプロセスを管理することです。これだと少々分かりづらいので、自動車のスピードメーターを例にご説明します。
例えば、走っている道路の制限速度が60kmであれば、ドライバーはスピードメーターを確認しながら、メーターの針が60kmを超えないように運転を行います。
計装の業務を行うプラント工場のあらゆる機械には、こうした数値が分かるような計器がついています。圧力計や温度計、湿度計など、そういった計器の数値が制限値を超えていないか、正常な値であるかどうかを確認しながら設備を運用しているのです。
特に、産業プラントでは危険な化学物質を原料や触媒に使用しており、事故が発生した場合の影響は甚大です。つまり、運用のミスが許されない厳しい環境で業務を行うことが求められます。
弊社はこの産業プラントを運用する「計装」の考え方を、ITシステムの運用にも同じように適用できるのではないかと思い、MSPサービスの提供を開始したのです。
弊社の計装事業、ヘルスケア事業、ICT事業に共通している社会的使命とは「あらゆる設備・システム・サービスが常に100%の力を発揮できるよう、【安全・安心・快適】に稼働させ続けること」だと考えています。
こうした【安全・安心・快適】を築くためには、一度システムを作りあげたら終わりではなく、運用していく中での「継続的な改善」が必要になります。
この“改善しながら運用する”というのが、弊社の考える「新時代のシステム運用の在り方」です。その実現手段の一つとして、私たちはオペレーションの「自動化」があると考えました。
興安計装が考える新時代のシステム運用の在り方
それでは、弊社が考える「新時代のシステム運用の在り方」をご紹介します。先ほどの章で申し上げた「改善しながら運用する」という考え方を、私たちは「運用設計」と呼んでいます。「運用設計」のポイントは【人が実施しなければいけないことは人がする。システムでできることはシステムでする】という点です。
DXが進んでいく中で、ITシステムはより複雑化していくと予想できます。この「運用設計」の思想は、今後これまで以上に必要とされる機会があるかもしれません。
そして、この「運用設計」の業務は、必ず人が行うべきだと考えています。
だからこそ、弊社は人材の育成として「コミュニケーション力」「IT技術力」「改善力」という、3つの教育に力を入れています。
「コミュニケーション力」の教育は、弊社の社員を人として当たり前の行動が自然にできるように育て、ひいては明るい職場を作ることを目的にしています。挨拶をはじめ、整理・整頓・清潔・清掃・躾の5S活動、人への思いやりなど、私たちはこういったことができる現場を、非常に大切にしています。
「IT技術力」は、技術力を担保することが目的です。独自の教育・訓練プログラムで現場ごとの力量評価基準を設定し、半年に1度の試験を実施しています。また、自社のラボ環境・クラウド環境を使ったサーバ・ネットワーク・監視システムの構築研修にも取り組んでいます。
そして、最後に「改善力」では、常に高水準のサービスを提供することを目的に、技術・技能の継承を行う取り組みをしています。IE手法を応用した業務の継続的改善と、現場ノウハウのデータベース化、システム化などによる、技術・技能の継承を行うことで、サービス品質の向上を目指しています。
なお、IEという言葉は「工程や作業内容を科学的に分析して、生産管理を最適化すること」を指しています。
日本では第二次世界大戦後にアメリカから導入され、主に製造業の現場で業務改善のために利用されてきました。
弊社では、このIE活動が“胆”になりますので、ここからそれについて説明します。
KOAN-IE活動~改善力の強化~
それでは「改善力」を磨くIE手法を弊社がどのように教育しているかについて、ご説明します。こちらの図は、改善活動を始める以前の弊社が「改善の概念」を理解するために実施していた「KOAN-IE活動」の概念図です。
「KOAN-IE活動」は、個々の改善力のパワーアップに向けて、業務分析力、問題解決力、リーダーシップ力を中心に教育するプログラムです。現在では、弊社の人事研修(管理職研修)の一つとしてこの概念を学んでいます。
この図の左側にある標準プロセスと書かれたところが、IE手法を用いた改善活動の標準的な進め方です。
まずは組織の目標を設定します。この組織の目標を設定して行く中で、財務、顧客、内部プロセス、教育という視点を持って決めていきます。
次に現状分析を行います。この現状分析では、主に業務のすべてをフロー図に書き起こした工程分析を行います。その後、フロー図に基づいて動作分析を行います。具体的には、私を含めた各スタッフが5分から10分単位で実際にどんな作業をしていたのかを記録していくのです。
このような稼働分析をすることで、自分たちがやっていた作業の「ムリ・ムダ・ムラ」が客観的な視点で見えてきます。
こうした現状分析をすると、たくさんの課題が見えてきます。次の過程で、その課題をどうすれば解決できるかの対応策を立案していきます。
得られた課題と対応策に対し、どの課題から取り組むべきかというのは、大変難しい判断となります。
これを間違えると、ある一部の業務の部分的な改善、つまり「部分最適」にしかなりません。本当の効率化を進めるには、俯瞰的に業務を見て「全体最適」に繋がる改善を行う必要があるのです。
そのため、改善の優先順位を決定するリーダーには「全体を分析する視点」が求められます。
また、「全体最適」の優先順位を決めた後は実際に改善活動を行います。この取り組みを実行するために、組織を動かす「リーダーシップ」も必要になってきます。
そのため、弊社のリーダーには「全体最適の視点」と「リーダーシップ」が身につくのです。
冒頭で触れたお話で私は実際にこの研修を経験しました。特に私が受けた時代には、それを管理する鬼教官がいました。
その人から週次、月次、半期の各報告で、あらゆることを徹底的に詰められていくのです。
「その改善はいつまでにできる? 今日、明日?」「何故その課題の解決が全体最適に繋がると思ったの? それはあなたの予想だよね。客観的な事実はあるの? データはあるの?」――と、期間中はこんなことが毎日繰り返されます。
正直、週次、月次、半期のレポートレビューの時には、会社を休もうかなと思ったこともありました。ただ、今となっては、私に「全体最適の視点」「リーダーシップ」という力をくれたことについて、本当に感謝しています。
ヒヤリ・ハット活動 ~改善の実績~
次に、改善活動を組織に定着させる方法についてお話をします。先程あった改善活動というのは組織で運用するのですが、これを一人一人に定着させる方法があります。
ところで、皆さんは「ハインリッヒの法則」をご存知でしょうか?
これは労働災害における経験則の一つで、1つの重大事故の背後には29の軽微な事故があり、その背景には300の異常、つまり、ヒヤリとしたこと、ハッとしたことが存在すると言われています。
弊社では、このヒヤリとしたこと、ハッとしたことを共有する「ヒヤリ・ハット活動」を実施しています。
このヒヤリ・ハットと、IE手法で一人一人が改善するという活動を同時に行うことで「改善活動」を組織に定着させています。
それに加え、この活動で有意義な成果があった場合、社長賞や役員賞といったお金のインセンティブも用意しています。2020年度においては、実際に社内で2,000件のヒヤリ・ハットが報告されました。
先ほどのハインリッヒの法則からすると、2,000件のヒヤリ・ハットがあれば6~7件の重大な事故が発生する可能性があります。しかし、それに対して820件の改善を行うことで、危険の目を潰しているのです。
結果としては、軽微な事故・災害が6件起きたものの、重大な事故・災害はゼロを達成することができました。
しかし、このような活動をしていても、悔しいことに事故やミスは発生してしまいます。
そして、こういった事故やミスが発生した場合、システム運用者としては即時的な一次対策、その後に恒久対策を実施する必要があります。
ただ、そこで「部分最適」だけしか見ていない対策を取ってしまうと、オペレーターのリソースを大きく圧迫してしまうのです。
次にミスの対策でありがちな“あるある”について、お話をしていきます。
ミスが発生したときのよくある対策
現場でミスが発生すると、多くの場合、チェック行為を追加するといった暫定処置を実施します。具体的には、手順間違い、メールの誤送信、アラートの対応漏れなどが発生した時に、人手による二重チェックや、チェック項目を増やすといった対策を取りがちです。そうなると、お客様個別の手順書に修正・追加を行い、案件固有の業務が増加――標準化とは全く逆の状態に向かってしまいます。
これを繰り返すと、ミスのたびにオペレーターの稼働時間が増加し、覚える手順も増加するという結果になります。
ただし、必ずしも「暫定処置が悪だ」ということではありません。一番の問題は、この暫定処置が「放置され続ける」ことなのです。
この状況を改善する仕組みこそが、これまで述べてきた弊社の「運用設計」なのです。
そしてこれは、自動化を進める際も全く同じです。プロセスの見直しや標準化をせずに、人手でやっていることをそのまま自動化してしまうとどうなるか。
結果として、自動化はされたものの、その効果は限定的になるでしょう。さらに言えば、無数の似たようなツールやマクロが生まれ、それらのツールの一部は作成者がいなくなると保守できなくなり、運用業務自体がそのツールに縛られて、変えられなくなる――という事態が発生してしまいます。
「自動化」を導入する目的の一つは、人的要因で起こる事故やミスを【未然に防ぐ】ことです。ただ、事故やミスを起こさないための工夫として取り入れたツールが、運用に対して悪影響を及ぼしてしまうことは、避けなければなりません。
そこで、私たちはIE活動をベースにした運用の「継続的な改善」、いつまでも標準化されていない部分が無いかを調べる「業務分析」で徹底的に業務の「全体最適」を進めました。さらに、ヒヤリとしたことやハッとしたことを改善する「予知保全」といった活動を業務プロセスに盛り込み、大きな事故やミス、それに付随する「暫定処置」を減らす工夫も行いました。
こうして【人が実施しなければいけないことは人がする。システムでできることはシステムでする】という考えの下、弊社はシステムの自動化に7年ほど前から取り組み始めました。
しかし、自動化を推進していく上で新たな課題が発生したのです。
自動化の課題
こちらの図は「Owlook(アウルック)ポータルサイト」と呼ばれる、弊社が今まで使用していた統合監視システムの概要図です。7年ほど前から、監視状態やオペレーターの対応状況、それからお客様への月次報告書をお客様にリアルタイムで確認いただくためのUIとしてこのポータルを開発しました。
その後、「Owlookポータルサイト」と統合監視システムを連携し、オペレーターの効率化とミスの削減を実現するオペレーター支援システムである「Owlook Operation System」を独自で開発し、運用を行っていました。
しかし、この「独自仕様、自社開発」が結果として仇になったのです。機能の拡張スピードの遅れや、お客様が所有する監視システムとの連携面の難しさ、それにかかる開発コストの増加から、弊社オペレーションセンターの業務全体を統合することが困難になりました。
つまり「全体最適」を目指してきた弊社の「Owlookオペレーションセンター」そのものが、「部分最適」になってしまったという問題が発生したのです。私たちはこの大変な問題を急いで解決する必要がありました。
Kompira
壁にぶつかった私たちは本来の「全体最適」を叶えるべく、自動化の導入を検討しました。その時にまず、世の中にある運用自動化ツールにはどういったものがあるのかに目を向けて、検証を行いました。特に「継続的改善が可能なシステムであること」「自動化の開発支援が可能であること」を必須の条件としていました。その中で出会ったのが、フィックスポイント様の「Kompira」です。フィックスポイント様と初めてお話をした時に、「Kompira」が弊社の考えの“胆”である「継続的改善が可能なシステムであること」と「自動化の開発支援が可能であること」を確認させていただきました。それについて快いお返事があったため、結果として導入することになりました。
まずKompira AlertHubにより、弊社の統合監視システムだけでなく、外部にあるお客様が所有する監視システムからのアラートも受信できるようにしました。
これはある意味、お客様も含めた全体最適です。
次にKompira Enterpriseです。インシデントの起票と機器状態の確認や一次保守が自動で実行できるようになりました。ここは、システムでできることはシステムで、ということになります。
また、Kompira Pigeonを使ったお客様への電話の自動通知と、通知時にお客様が選択した回答を自動的に実行できるようにしました。
これもお客様に選択していただいて、人が実施すべきことは人で、システムができることはシステム、という点を実現したことになります。
これにより、自動化による単純作業の高速化と品質向上、ヒューマンエラー・属人性の排除が可能になりました。
そして、高スキル技術者による複雑故障対応と故障解析による予知保全。ここはシステムで対応できる範囲が増えたので、人は複雑故障への対応や故障解析に力を入れられるようになりました。
まだ計測中ですが、弊社ではオペレーターの稼働時間を約25%削減できるのではないかと見込んでいます。
MSPサービスのユースケース
それでは、ここでKompiraを導入した弊社のMSPサービスについて、具体的なユースケースをご紹介します。まず弊社が運用するオペレーションセンターの監視サーバ、あるいはお客様が自社で運用する監視サーバにより、お客様のシステムを監視しているとします。
ここで、お客様のシステムに障害が発生します。
障害が発生した場合、いずれかの監視サーバからアラートが受信メールサーバに送信されます。
次に受信メールサーバからKompira AlertHubにアラートが通知されます。
そしてKompira AlertHubとKompira Enterpriseがシステム連携します。
次にITSMツールにインシデントが起票されます。
その後、オペレーターへ通知が行くのと同時に、お客様にもメールが送信されます。さらに自動的に電話をかけ、アラート内容をお客様に報告し、お客様はそれらに対する回答を実行するように指示できます。
お客様からの指示をいただくと、一次保守が実行されます。それでも解決しない場合は、オペレーターによる二次保守が実施されます。
「システムができることはシステムで」を実現するため、ここではお客様システムで障害が発生してから一次保守をするまでを全て自動で行っています。その中でどうしても解決できない複雑なトラブル、アラートがあった時に、初めて人が出てきて二次保守をする、という流れになっています。このような対応の結果、システムが正常に回復します。
これが、私たちが考えているMSPサービスの今の状態になります。
計装哲学×自動化
これから弊社は「全体最適」「予知保全」という観点でお客様の業務を分析し、プロセスを標準化し、「計装哲学」に基づく自動化を前提としたMSPサービスの提供に取り組んでまいります。そうすることで、今までよりもさらに安全・安心で品質が高いサービスであるとお客様に感じていただけると考えています。
今後はフィックスポイント様の自動化ツールと弊社マネージドサービスを組み合わせたサービスも検討しておりますので、今後のフィックスポイント様と弊社の活動にも注目いただければ幸いです。
最後までご覧いただきまして、誠にありがとうございました。