LAMでRPAが時代遅れになる日がくるか
OpenAI社のChatGPTの発表以来、AI導入がブームとなりました。
LLMをベースとした生成AIの導入・評価が概ね一段落した感があります。
ただAIブームが去ったかというと、そんなわけも無く、GPUの需要は旺盛でNVIDIA社の株価も安定していますし、新しいAIモデルや新規AI関連のサービスも次々発表されており、しばらくはAIに関する話題は尽きそうにありません。
AIにも文書作成や画像生成など様々なサービスがありますが、作業の自動化の観点から見ていきますと、大規模アクションモデル(LAM)は注目すべき技術とみています。
大規模アクションモデル(LAM)は、約1年前に登場した比較的新しいカテゴリで、
AIエージェントが実際のタスクを遂行するために設計された新しい種類の人工知能モデルです。
LLM はテキスト、画像、音声を生成しますが、LAM はプロセスを生成し、AI ソフトウェアエージェントを使用して独自に動作できます。
LAMの主な特徴
– 行動の生成: LAMは単にテキストを生成するだけでなく、具体的なアクションを実行することができます。
– マルチモーダル入力: テキストだけでなく、画像やユーザーの画面、HTML、URLなどの多様な入力を処理できます。
– 学習能力: 人間の行動を観察し、そこから学習して適応する能力があります。
– インターフェース理解: アプリケーションのインターフェースを視覚的に理解し、操作することができます。
– API非依存: 多くのアプリケーションのインターフェースを理解しているため、APIに頼らずに操作できます。
乱暴にいえば、人の作業手順・プロセスを学習し、それを元にして、与えられた指示を完遂するためのタスク分解や実行手順の出力、実際のタスクの実行までを行ってくれるようになります。
これが実現すれば、従来の自動化実装ではルールベースでRPAツールなどに設定を行っていく必要がありましたが、LAMでは手順の作成や連携のインターフェースとの対応などを柔軟に行えることが期待できます。
小規模ではパーソナル秘書のレベルから、従来RPAなどで実現してきた会社での事務処理や、ある程度の規模感をもったシステムのトラブルシュートまで、さまざまな業務の自動化実装が、より容易になることが期待されます。
LAMは、AIエージェントがより自律的に複雑なタスクを遂行するための次世代技術として注目されています。
ただし、トレーニングコストや外部システムへの依存などの課題もあり、今後の発展が期待されています