StructRAG (ICLR 2025) は、推論前に各クエリを表、グラフ、カタログ、アルゴリズム、またはチャンクといったタスクに 適した構造タイプにルーティングします。これにより、LoongベンチマークにおいてGraphRAGを28ポイント上回るスコアを記録しつつ、22倍の高速化を実現しました。DPOでトレーニングされたルーター単体で、15ポイントの精度向上に寄与しています。
2026年のスタンフォード大学のプレプリントでは、5つのマルチエージェントアーキテクチャ間で思考トークン予算を均等化し、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムと同等かそれ以上の性能を発揮することを発見しました。これは情報処理不等式に基づいた理論的根拠を持ち、金融AIエージェントの設計にも影響を与えます。
M3MAD-Benchは、9つのモデル、5つのドメイン、および視覚と言語の設定においてマルチエージェント討論をストレステストしました。その結果、失敗の65%が「集団的妄想」に起因すること、敵対的討論により精度が最大12.8%低下すること、そして自己整合性が通常、より低いトークンコストで討論と同等の精度を達成することが判明しました。
AGrail(ACL 2025)は、テスト時適応(TTA)を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。
ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。
Atlas (JMLR 2023) は、わずか 64 個の学習例で Natural Questions において 42.4% の精度を達成し、11B パラメータでありながら PaLM 540B を 3 ポイント上回りました。これは、Contriever ベースの高密度検索機と T5 Fusion-in-Decoder 読解機を共同で事前学習することで実現されました。本分析では、検索精度の限界、587GB のインデックス・インフラコスト、および Beancount 元帳 QA システムへの影響について解説します。
Izacard とGraveによるFiDアーキテクチャは、検索されたパッセージを独立してエンコードし、デコーダーで融合させることで、NQおよびTriviaQAにおいてRAG-Sequenceを4〜11ポイント上回りました。本記事では、その設計と、トランザクションをまたぐ複数エントリの統合が一般的であるBeancountの元帳QAへの影響について考察します。
GuardAgent(ICML 2025)は、ターゲットエージェントと環境の間に独立したLLMエー ジェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。
Du氏らによるICML 2024のマルチエージェント討論論文(算術において14.8ポイントの精度向上を報告)の精読。予算を等しくした単一エージェントが討論のパフォーマンスに匹敵することを示す2025年の反論論文と併せて、討論の失敗の65%を占める「集団的妄想」がAI支援による元帳コミットに与える特有のリスクを分析します。