WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか
WildToolBench (ICLR 2026) は、実際のユーザー行動から抽出された1,024のタスクで57のLLMを評価しました。15%のセッション精度を超えるモデルは存在せず、構成的オーケストレーション、隠れた意図、および指示の遷移が3つの顕著な失敗モードとして特定されました。
WildToolBench (ICLR 2026) は、実際のユーザー行動から抽出された1,024のタスクで57のLLMを評価しました。15%のセッション精度を超えるモデルは存在せず、構成的オーケストレーション、隠れた意図、および指示の遷移が3つの顕著な失敗モードとして特定されました。
LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。
OSWorld(NeurIPS 2024)は、Ubuntu、Windows、macOSにわたる369の実際のデスクトップタスクでマルチモーダルAIエージェントをベンチマーク評価しました。その結果、最高モデル(12.24%)と人間のパフォーマンス(72.36%)の間に60ポイントの開きがあることが判明し、失敗の75%は推論の失敗ではなく視覚運動グラウンディングのエラーに起因することが示されました。
StructRAG (ICLR 2025) は、推論前に各クエリを表、グラフ、カタログ、アルゴリズム、またはチャンクといったタスクに適した構造タイプにルーティングします。これにより、LoongベンチマークにおいてGraphRAGを28ポイント上回るスコアを記録しつつ、22倍の高速化を実現しました。DPOでトレーニングされたルーター単体で、15ポイントの精度向上に寄与しています。
2026年のスタンフォード大学のプレプリントでは、5つのマルチエージェントアーキテクチャ間で思考トークン予算を均等化し、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムと同等かそれ以上の性能を発揮することを発見しました。これは情報処理不等式に基づいた理論的根拠を持ち、金融AIエージェントの設計にも影響を与えます。
Self-RAG(ICLR 2024 Oral)は、言語モデルがいつ検索を行うかを自ら決定し、4つの反省トークンを使用して自らの結果を評価するようにトレーニングする手法です。PopQAで55.8%、伝記のFactScoreで80.2を達成し、5つのベンチマークでChatGPTを上回りました。この分析では、そのメカニズム、アブレーション結果、再現性の限界、およびBeancount元帳を利用する金融AIエージェントへの影響について解説します。
AgentBench (Liu et al., ICLR 2024) は、8つのインタラクティブな環境で27のLLMをベンチマーク評価しました。GPT-4の総合スコアは4.01に対し、オープンソースモデルの最高は0.96でした。3つの主要な失敗モード(ナレッジグラフの失敗の67.9%を占めるタスク制限超過、データベースの失敗の53.3%を占めるフォーマットエラー、および無効なアクション)は、実際の帳簿にBeancount書き戻しエージェントをデプロイする際のリスクに直結しています。
MemGPTは、OSスタイルの仮想メモリページングをLLMに適用し、ワーキングメモリ、リコール、アーカイブの3層ストレージを使用して、エージェントにセッションをまたがる永続的な想起能力を提供します。マルチセッションチャットのベンチマークにおいて、MemGPTとGPT-4の組み合わせは、固定コンテキストのベースラインの32.1%に対し、92.5%の精度を達成しました。