HOME/ AINOW編集部 /推論、計画、ツール呼び出しのための新しいAIエージェントアーキテクチャの眺望:調査
2024.07.11

推論、計画、ツール呼び出しのための新しいAIエージェントアーキテクチャの眺望:調査

最終更新日:

IBM社で人工知能の応用について研究しているサンディ・べーセン(Sandi Besen)氏(同氏の詳細な経歴はLinkedInページを参照)は、同僚であるトゥラ・マスターマン(Tula Masterman)氏、マーソン・ソーテル(Mason Sawtell)氏、そしてMicrosoftのアレックス・チャオ(Alex Chao)氏と共著して、2024年4月にAIエージェントの現状に関する論文を発表しました。同氏がMediumに投稿した記事『推論、計画、ツール呼び出しのための新しいAIエージェントアーキテクチャの眺望:調査』は、この論文を要約して紹介しています。
上記論文の重要ポイントを箇条書きにすると、以下のようになります。

2024年4月時点におけるAIエージェント研究開発の重要ポイント
  • ChatGPTの台頭以降に流行した対話型AIに続く新しいAI研究カテゴリーとして、タスクを自律的に遂行するAIエージェントが注目されている。
  • AIエージェント開発におけるアーキテクチャとして、単一のエージェントのみから構成されたシングルエージェントアーキテクチャと、多数のそれから構成されたマルチエージェントアーキテクチャがある。
  • 以上の2つのアーキテクチャでは推論を中心として、計画、タスクの反復、タスク遂行結果の反省(評価)などといった機能が共通して実装されている。
  • シングルエージェントアーキテクチャは比較的簡単なタスクの遂行に優れている反面、複雑なタスクを遂行できない。対してマルチエージェントアーキテクチャは複雑なタスクを遂行できる反面、多数のエージェントを制御する機構の実装が不可欠となる。
  • AIエージェントが健全にタスクを完了するためには、タスク遂行時の途中出力をフィードバックして、必要ならば途中出力を軌道修正するフィードバック機構が不可欠である。
  • マルチエージェントアーキテクチャにおいては、エージェント間での情報共有が重要となる。無駄な情報共有を抑制し、必要な情報を提供するための技法を用いる必要がある。
  • AIエージェントのタスク遂行時には、役割の定義が重要となる。とくにマルチエージェントアーキテクチャでは、リーダーとなるエージェントを指定したり、必要に応じてエージェントに役割を動的に割り当てたりする技法が有効である。

以下の記事本文では、英語原文に付された注釈を[原註]と表し、翻訳に際して付した注釈を(※訳注)と表します。

また、記事本文の末尾では、上記論文で解説されているシングルエージェントアーキテクチャとマルチエージェントアーキテクチャに関する技法と実装方法を簡単に説明した補足を追加しています。

なお、以下の記事本文はサンディ・べーセン氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

画像出典:原文記事著者による

はじめに

私と私のチーム(Sandi BesenTula MastermanMason SawtellAlex Chao)は最近、AIエージェントアーキテクチャの現状を包括的に見る調査研究論文を発表した。この論文の共著者として、私たちは、これらの自律システムが複雑な目標を効果的に実行することを可能にする重要な設計要素を明らかにすることに着手した。

以下の論文は、研究者、開発者、そしてAIエージェント技術分野における最先端の進歩について常に最新情報を得ることに関心のあるすべての人にとってのリソースとなる。

Arxivでメタアナリシスの全文を読む

・・・

エージェントへのシフト

ChatGPTの台頭以来、生成AIアプリケーションの最初の波は、ユーザのプロンプトに応答するためにRAG(Retrieval Augmented Generation)パターンを利用するチャットボットを中心に展開されてきた。このようなRAGベースのシステムの堅牢性を高めるための研究が進行している一方で、研究コミュニティは現在、次世代のAIアプリケーションを模索している。そうした模索における共通のテーマは、自律型AIエージェントの開発である。

エージェントシステムは、計画、反復、反省のような高度な機能を組み込んでおり、モデル固有の推論能力を活用してタスクをエンド・ツー・エンドで達成する。ツール、プラグイン、機能の呼び出しを使用する能力と組み合わせることで、エージェントはより幅広い汎用的な作業に取り組める。

エージェントにとっての推論、計画、効果的なツール呼び出しの重要性

推論は人間の心の基礎となる構成要素である。推論がなければ、人は意思決定、問題解決、新しい情報を知ったときの計画の練り直しができない。推論は、私たちを囲む世界を理解するのに不可欠なものである。(人間と同様に)もしエージェントが強力な推論能力を持っていなければ、タスクを誤解したり、無意味な答えを生成したり、多段階の意味を考慮しなかったりするかもしれない。

私たちは、ほとんどのエージェント実装が、計画を作成するために次の技術のいずれかを呼び出す計画フェーズを含んでいることを発見した。それらはタスク分解、複数計画選択、外部モジュール支援計画、反省と洗練、そしてメモリ拡張計画である[原註1]。

単なるベース言語モデルではなく、エージェント実装を利用するさらなる利点は、ツールを呼び出すことによって複雑な問題を解決するエージェントの能力である。呼び出されたツールは、APIとの対話、サードパーティアプリケーションへの書き込みなどのアクションをエージェントに実行させられる。推論とツール呼び出しは密接に絡み合っており、効果的なツール呼び出しは適切な推論に依存している。簡単に言えば、推論能力の低いエージェントでは、ツールを呼び出す適切なタイミングを理解するのを期待できない。

シングルエージェントアーキテクチャ vs マルチエージェントアーキテクチャ

私たちの発見は、シングルエージェントであれマルチエージェントであれ、その両方のアーキテクチャが推論とツール呼び出しステップを採用することにより、困難なタスクを解決するために使用できることを強調している。

シングルエージェントの実装では、目的実行の成否は適切な計画と自己修正[原註1, 2, 3, 4]に依存していることがわかった。自己評価と効果的な計画を作成する能力がなければ、シングルエージェントは無限の実行ループにはまり、与えられたタスクを達成できなかったり、ユーザの期待に沿わない結果を返したりする可能性がある[原註2]。シングルエージェントアーキテクチャは、タスクが単純な機能呼び出しを必要とし、他のエージェントからのフィードバックを必要としない場合に、特に有用であることもわかった。

しかしながら、シングルエージェントパターンは、長いサブタスクやツール呼び出しを含むシーケンスを完了するのに苦労することが多いこともわかった[原註5,6]。マルチエージェントパターンは、アーキテクチャ内の複数のエージェントが個々のサブ問題に取り組めるため、並列タスクとロバスト性の問題に対処できる。多くのマルチエージェントパターンは、複雑な問題をいくつかの小さなタスクに分解することから始まる。そして、各エージェントは、それぞれ独立したツールを使って、各タスクの解決に取り組む。

複数のエージェントを含むアーキテクチャは、多様なエージェント・ペルソナからの貴重なフィードバックだけでなく、能力にもとづいたインテリジェントな分業の機会を提供する。数多くのマルチエージェントアーキテクチャは、計画、実行、評価の各フェーズにおいて、エージェントのチームが動的に形成され、再編成されるステージで運用されている[原註7, 8, 9]。このような再編成により、特定のタスクに特化したエージェントが活用され、不要になったら排除されるため、優れた成果が得られる。エージェントの役割とスキルを目の前のタスクに合わせることで、エージェントチームはより高い精度を達成し、目標達成に必要な時間を短縮できる。効果的なマルチエージェントアーキテクチャの重要な特徴として、エージェントチーム内での明確なリーダーシップ、ダイナミックなチーム構成、チームメンバー間での効率的な情報共有が挙げられる。こうした情報共有によって、余計なコミュニケーションに紛れて重要な情報が失われるのを防げる。

私たちの研究では、ReAct、RAISE、Reflexion、AutoGPT + P、LATSなどの注目すべきシングルエージェント技法と、DyLAN、AgentVerse、MetaGPTなどのマルチエージェント実装に焦点を当てている。これらのについては論文で詳しく説明している。

主な所見

シングルエージェントパターン:

シングルエージェントパターンは、一般的に、ツールのリストが狭く定義され、プロセスが明確に定義されているタスクに最適である。エージェントらは、他のエージェントからの貧弱なフィードバックや、他のチームメンバーからの気が散るような無関係なおしゃべりに直面することはない。しかし、シングルエージェントは、推論と改良の能力がロバストでないと、実行ループにはまり、ゴールに向かって前進できないことがある。

マルチエージェントパターン:

マルチエージェントパターンは、複数のペルソナからのフィードバックがタスク達成に有益なタスクに適している。このパターンは異なるタスクやワークフロー間での並列化が必要な場合に有用であり、並列化によって、個々のエージェントは他のエージェントが処理するタスクの状態に邪魔されることなく、次のステップに進める。

フィードバックとヒューマン・イン・ザ・ループ

言語モデルは、応答の早い段階で回答を固める傾向があるため、目標状態からの逸脱を増大させる「雪だるま効果」を引き起こす可能性がある[原註10](※訳注1)。フィードバックを実装することで、エージェントはコースを修正し、ゴールに到達する可能性が高くなる。人間による監視はエージェントの反応を人間の期待により近づけることで、直接的な結果を改善し、より信頼できる結果をもたらす[原註11, 8]。エージェントは、他のエージェントからのフィードバックが健全でない場合でも、そうしたフィードバックからの影響を受けやすい。こうした事態により、エージェントチームは、目的から逸脱した誤った計画を生成してしまう可能性がある[原註12]。

(※訳注1)アメリカ・ワシントン大学らの研究チームは、LLMが出力した幻覚にもとづいて、さらに間違った回答を出力する現象を「幻覚雪だるま(hallucination snowballing)」と命名して調査した論文を発表した。
幻覚雪だるまの一例として、GPT-4に「9677は素数ですか」と質問すると、「9677は素数ではありません。この数字は13と745に因数分解できるので、9677は 13 x 745です」と回答するものがある。9677は素数なのだが、素数ではないと主張するために、因数分解できるとさらに誤った主張を追加している。

素数をめぐる幻覚雪だるまの一例

上記研究チームは、幻覚雪だるまが生じる質問データセットを3つ作成した。それらはある数字が素数かどうか尋ねる「素数性テスト(Primality testing)」、アメリカ上院議員の選出州と出身校に関して尋ねる「上院議員検索(Senator search)」、旅客機の航路について尋ねる「グラフ接続性(Graph connectivity)」である。これらを使ってChatGPTとGPT-4に関して幻覚雪だるまの発生率を調べたところ、GPT-4に当該現象が多く生じた。この結果は、GPT-4が回答の整合性を実現するためにより多くの幻覚雪だるまを生み出していることを意味する。

幻覚雪だるまをめぐるChatGPTとGPT-4の比較実験

情報共有とコミュニケーション

マルチエージェントパターンは、「お元気ですか」のようなことをお互いに聞いたり、些細なことにとらわれたりする傾向が強くなる一方、シングルエージェントパターンは、管理すべきチームダイナミクスがないため、目の前のタスクに集中し続ける傾向がある。マルチエージェントパターンにおける不必要なコミュニケーションは、強固なプロンプトによって軽減できる。垂直的アーキテクチャ(※訳注2)では、エージェントは他のエージェントがタスクを完了するために必要な情報を持っていないことに気づかず、重要な情報をサポートエージェントに送らないことがある。この失敗は、チーム内の混乱や成果における幻覚の混入につながる可能性がある。この問題に対処する1つのアプローチは、エージェントがコンテキストに応じた適切なやり取りができるように、システムプロンプトにアクセス権に関する情報を明示的に含めることである。

(※訳注2)本記事が解説するベッセン氏らの調査によると、マルチエージェントアーキテクチャには、AIエージェントの関係にもとづいた以下のような2種類のカテゴリーがある。

AIエージェントの関係にもとづいた2種類のカテゴリー
  • 垂直的アーキテクチャ:複数のAIエージェントを統括するリーダーエージェントが存在する。リーダーエージェントとほかのエージェントは、それぞれの役割が明確に定義されている。
  • 水平的アーキテクチャ:リーダーエージェントが不在なアーキテクチャ。各エージェントは、共有スレッドによって情報共有する。役割も流動的であり、しばしば他のエージェントのタスク遂行に参加することがある。

役割定義と動的チームの影響

明確な役割定義は、シングルエージェントアーキテクチャでもマルチエージェントアーキテクチャでも重要である。役割定義は、エージェントが与えられた役割を理解し、与えられたタスクに集中し、適切なツールを実行し、他の(エージェントの)能力から生じる幻覚を最小限に抑えることを保証する。明確なグループリーダーを確立することは、タスク割り当てを効率化し、マルチエージェントチームの全体的なパフォーマンスを向上させる。また、必要性に応じてエージェントを出し入れするダイナミックチームも効果的であることも示されている。こうした技法の活用により、タスクに参加するすべてのエージェントが強力な貢献者となる。

重要な洞察のまとめ

議論された重要な洞察は、最適なエージェントアーキテクチャはユースケースによって異なることを示唆している。どのようなアーキテクチャを選択するかにかかわらず、最高のパフォーマンスを発揮するエージェントシステムは、次のアプローチの少なくとも1つを組み込んでいる傾向がある:明確に定義されたシステムプロンプト、明確なリーダーシップとタスク分割、専用の推論/計画-実行-評価フェーズ、動的なチーム構造、人間またはエージェントによるフィードバック、およびインテリジェントなメッセージフィルタリング。これらの技術を活用したアーキテクチャは、さまざまなベンチマークや問題タイプにおいて、より効果的である。

結論

私たちのメタアナリシスの目的は現在のAIエージェントの状況に関する包括的な理解を提供するとともに、既存のエージェントアーキテクチャを構築したり、カスタムエージェントアーキテクチャを開発したりする人々に洞察を見せることにある。包括的なエージェントベンチマークの欠如、実世界での適用可能性、有害な言語モデルのバイアスの緩和など、自律型AIエージェントの設計と開発には、顕著な限界と今後の改善すべき領域がある。信頼性の高いエージェントを実現するためには、これらの領域に近い将来取り組む必要がある。

・・・

注記:本記事および論文で述べられている意見は、あくまでも著者個人のものであり、必ずしもそれぞれの雇用主の見解や方針を反映するものではない。

もしまだ質問があったり、さらに明確にする必要があると思われることがあったりすれば、LinkedinのDMまでご連絡ください。私はいつでも、自分の仕事について考えを深め、反復することを熱望しています。

・・・

(※補足)ベッセン氏らが発表したAIエージェントに関する論文では、以下のような5つのシングルエージェントアーキテクチャの技法と、3つのマルチエージェントアーキテクチャの実装方法を紹介している。

シングルエージェントアーキテクチャの技法その1:ReAct
ReActでは、ユーザが入力したタスクに対して単一のAIエージェントがタスクの定義とその解決法を出力する。そして、解決法を実行して、タスクが解決するまでタスクの定義と解決法の考案、そしてその実行を繰り返す。以下の画像の右側では、ReActの実行シーケンスが示されている。具体的にはサーカス団のシルク・ド・ソレイユのショー「Mystere」が開催されるホテルと、そのホテルの部屋数を回答している。

ReActの実行シーケンス(画像右側)

シングルエージェントアーキテクチャの技法その2:RAISE
RAISEはReZctを改良した技法であり、その改良点とは長期記憶機能を実装したことにある。以下の画像におけるWorking Memoryが短期記憶機能に相当し、Example Poolが長期記憶機能に相当する。後者には、過去に実行したQ&A集などが保存されている。
RAISEはReZctを上回る出力品質を実現するが、幻覚の混入などの課題もある。

RAISEのアーキテクチャ図

シングルエージェントアーキテクチャの技法その3:Reflexion
シングルエージェントに、自身の出力をフィードバックして評価する自己反省機能を実装する技法。この技法はCoT(Chain-of-Thought:思考の連鎖)やReActに比べて、タスク成功率が向上し、幻覚も減少する。
しかしながら、長期記憶が言語モデルの最大トークン長に制限されるといった課題もある。

シングルエージェントアーキテクチャの技法その4:AUTOGPT + P
AUTOGPT + Pはロボットに実装することを想定した技法であり、ロボットのプランニング能力の実現にLLMを活用する。もっともLLMだけでは十分なプランニング能力が実現できないため、ロボットによるプランニングに関する古典的技法であるPDDL(Planning Domain Definition Language:プランニングドメイン定義言語)も併用する。

AUTOGPT + Pのアーキテクチャ図

シングルエージェントアーキテクチャの技法その5:LATS
LATS(Language Agent Tree Search:言語エージェント木探索)とはモンテカルロ木探索にヒントを得た技法であり、状態をノードとして表現して、アクションをノード間の移動と定義する。
LATSはさまざまなタスクで優れたパフォーマンスを発揮する一方で、多くの計算資源を使用するという欠点もある。こうした欠点によりタスク完了までの時間が長くなる傾向にある。


マルチエージェントアーキテクチャの実装方法その1:DyLAN
DyLAN(Dynamic LLM-Agent Network:ダイナミックLLMエージェントネットワーク)とは、マルチエージェントアーキテクチャにおける役割割り当て方法のひとつ。タスク実行のサイクルをラウンドで管理したうえで、各ラウンドの最後で各エージェントのタスク遂行貢献度を評価する。そして、貢献度がトップのエージェントのみに次のラウンドのタスク実行を割り当てる。この方法は、水平的アーキテクチャで用いられる。

マルチエージェントアーキテクチャの実装方法その2:AgentVerse
AgentVerseとは、タスク遂行のために4つのフェーズを設定したうえで、それぞれのフェーズにおけるサブタスクを遂行するエージェントを割り当てる方法。具体的には「エージェントのリクルート」、「協調的な意思決定」、「独立したアクションの実行」、「タスクを遂行したかどうかの評価」の4つのフェーズを実行する。
以下の画像は、(バーチャルな)家の建設を最終目標とした時のAgentVerseの処理プロセスを表している。

(バーチャルな)家の建設を最終目標とした時のAgentVerseの処理プロセス

マルチエージェントアーキテクチャの実装方法その3:MetaGPT
MetaGPTとは、マルチエージェントアーキテクチャにおけるエージェント間での情報共有方法のひとつ。マルチエージェントアーキテクチャにおける問題として、エージェント間で行われる無駄なおしゃべりがある。この問題に対して、MetaGPTは情報共有方法をドキュメントやダイアグラムのような構造化された出力に指定することで、情報共有効率を改善する。
LLMのプログラミング能力を測定するベンチマークであるHumanEvalとMBPPをシングルエージェントアーキテクチャと、MetaGPTを使用したマルチエージェントアーキテクチャに実施したところ、後者が優れていたことがわかった。

参考文献

[1] Timo Birr et al. AutoGPT+P: Affordance-based Task Planning with Large Language Models. arXiv:2402.10778 [cs] version: 1. Feb. 2024. URL: http://arxiv.org/abs/2402.10778.

[2] Shunyu Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629 [cs]. Mar. 2023. URL: http://arxiv.org/abs/2210.03629.

[3] Na Liu et al. From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models. arXiv:2401.02777 [cs]. Jan. 2024. URL: http://arxiv.org/abs/2401.02777.

[4] Noah Shinn et al. Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366 [cs]. Oct. 2023. URL: http://arxiv.org/abs/2303.11366

[5]Zhengliang Shi et al. Learning to Use Tools via Cooperative and Interactive Agents. arXiv:2403.03031 [cs]. Mar. 2024. URL: https://arxiv.org/abs/2403.03031

[6] Silin Gao et al. Efficient Tool Use with Chain-of-Abstraction Reasoning. arXiv:2401.17464 [cs]. Feb. 2024. URL: http://arxiv.org/abs/2401.17464

[7] Weize Chen et al. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors. arXiv:2308.10848 [cs]. Oct. 2023. URL: http://arxiv.org/abs/2308.10848.

[8] Xudong Guo et al. Embodied LLM Agents Learn to Cooperate in Organized Teams. 2024. arXiv: 2403.12482 [cs.AI]. URL: https://arxiv.org/abs/2403.12482

[9] Zijun Liu et al. Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization. 2023. arXiv: 2310.02170 [cs.CL]. URL: https://arxiv.org/abs/2310.02170

[10] Muru Zhang et al. How Language Model Hallucinations Can Snowball. arXiv:2305.13534 [cs]. May 2023. URL: http://arxiv.org/abs/2305.13534.

[11] Xueyang Feng et al. Large Language Model-based Human-Agent Collaboration for Complex Task Solving. 2024. arXiv: 2402.12914 [cs.CL].

[12] Weize Chen et al. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors. arXiv:2308.10848 [cs]. Oct. 2023. URL: http://arxiv.org/abs/2308.10848.

原文
『The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey』

著者
サンディ・べーセン(Sandi Besen)

翻訳
吉本 幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1、生成AIパスポート、JDLA Generative AI Test 2023 #2取得)

編集
おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

生成AIで“ウラから”イノベーションを|学生起業家が描く、AIを活用した未来

特許技術×AIでFAQを次のステージへ|Helpfeel

GPUの革新からAI時代の主役へ|NVIDIA

あなたにおすすめの記事

生成AIで“ウラから”イノベーションを|学生起業家が描く、AIを活用した未来

特許技術×AIでFAQを次のステージへ|Helpfeel

GPUの革新からAI時代の主役へ|NVIDIA