WildToolBench：为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

2026年7月10日 · 阅读需 7 分钟

Mike Thrift

Marketing Manager

我一直在跟踪的工具使用基准测试——BFCL、ToolBench、τ-bench——都有一个共同的设计缺陷：它们是根据基准测试作者对用户行为的想象来构建任务的。被 ICLR 2026 接收的 WildToolBench 则回归到真实的用户日志，询问用户实际上在做什么。答案令人深思：在评估的 57 个 LLM 中，没有一个会话准确率超过 15%。

论文解读

2026-07-10-wildtoolbench-benchmarking-llm-tool-use-in-the-wild

来自阿里巴巴的于培杰、刘伟、杨一凡及其同事展示了 WildToolBench (arXiv:2604.06185)，这是一个包含 256 个多轮对话场景、1,024 个任务的基准测试，这些任务源自真实用户行为模式，并基于约 1,600 个公共 API。其核心论点是，现有的基准测试趋于饱和并非因为模型表现优异，而是因为任务太假。真实用户会将请求捆绑在一起，遗漏两轮前分享过的上下文，并在询问工具问题、闲聊和请求澄清之间切换——有时就在一条消息内。WildToolBench 将这些失败模式量化为三个结构化的挑战类别，并测量任务级准确率和更为严格的会话级准确率（要求对话中的所有四个任务都成功）。

核心观点

大多数模型的会话准确率崩溃至个位数：Gemini-2.0-Flash-Thinking 以 14.45% 的会话准确率领先，Claude-4-Sonnet 为 12.50%，GPT-4o 为 11.72%。在四轮会话中通过所有任务是非常困难的，即使是 60% 的任务准确率，转化后也只有不到 15% 的会话准确率——这是每次交互都要缴纳的复合概率税。
组合编排（Compositional orchestration）是最陡峭的悬崖：混合顺序加并行的工具拓扑结构将顶尖模型的任务准确率限制在 25% 以内，而纯并行或纯顺序链的准确率为 54-62%。当一个任务需要先进行并行扇出再进行顺序合并时，协调问题超出了当前任何模型能可靠处理的范畴。
隐藏意图的差距比以往测量的都要大：WildToolBench 确保 100% 的任务涉及隐式或跨轮信息；而 BFCL v3 仅占 15.7%。长程依赖任务（缺失信息在两轮对话之前）是最难的子类型，即使在任务层面，也没有模型能突破 50%。
指令转换（Instruction transitions）以线性速率叠加错误：每次额外的策略切换（工具任务 → 聊天 → 澄清 → 工具任务）会使准确率下降约 5-15 个百分点。在发生三次转换时，受影响最严重的模型会丢失 30 分。作者称之为“自我条件作用（self-conditioning）”：先前的响应会以难以在中途纠正的方式，使模型对后续指令的理解产生偏差。
最优路径率（Optimal Path Rate）保持在 43% 以下：即使模型正确完成了任务，它们也会浪费多余的 API 调用。Claude-4-Sonnet 实现了 42.74% 的最佳最优路径率，这意味着大多数正确的完成步骤都超过了必要步骤——这对任何生产系统来说都是延迟和 Token 的直接成本。
专用工具使用模型表现不如通用前沿模型：xLAM-2-70B 和 ToolACE2-8B 的错误函数名比例均超过 30%，表现逊于 GPT-4o 或 Claude-4-Sonnet。在狭窄的工具使用语料库上进行微调似乎会产生脆弱性，而非在面对真实用户行为的分布偏移时的鲁棒性。

哪些结论站得住脚，哪些存疑

基准测试的设计在最关键的地方非常扎实。任务准确率和会话准确率之间的区分完全正确：复合失败模式是杀死真实部署的原因，而大多数先前的研究报告的任务级数据掩盖了这一点。三种挑战分类（组合编排、隐藏意图、指令转换）动机充分且有实证支持——不同挑战类型的性能退化曲线是真实且显著的。

弱点在于规模。来自 256 个场景的 1,024 个任务作为一个研究成果是可信的，但对于旨在长期跟踪 57 个模型的排行榜来说略显单薄。作者直接承认了这一点，并提到了未来的自动化扩展管线。另一个问题是，“基于真实用户日志”包含了很多加工：最终的任务是部分合成的，由多智能体系统从种子模式构建，然后由人工标注员验证。虽然声称是基于真实数据，但数据并非原封不动的实况——它是“受真实启发”的。这关系到你如何字面上理解 15% 的天花板；如果生成管线引入了真实用户实际上并不具备的人为难度，那么部分差距可能会缩小。

我也对将指令转换分析作为一种架构层面的主张持怀疑态度。论文将其归因于基础局限性，但 RLHF 微调目标与多模态用户会话之间的训练分布不匹配是更简洁的解释。这是可以解决的，而非结构性的。

为什么这对财务 AI 至关重要

这三种失败模式几乎完美对应了真实用户与 Beancount 回写智能体交互的方式。用户问“上个月我在杂货上花了多少钱，顺便把今天的 Whole Foods 收据也加上”——这是一个捆绑在一次交互中的组合任务。接着他们说“其实是 47.23 美元而不是 42 美元，我查了一下”——这是需要智能体跟踪会话状态的参数修正。然后他们问“那个类别对吗？”——这是一个澄清请求，智能体不应重新执行它刚刚完成的写入操作。在混合顺序加并行编排中 25% 的上限，以及指令转换带来的 30 分下降，正是这些失败模式会体现在处理真实用户会话的账本智能体中。

专用工具使用模型表现不如通用前沿模型的发现特别具有相关性。如果我们考虑在 Beancount 特定的工具调用示例上微调一个更小的开源模型（这是显而易见的降本方案），WildToolBench 是一个直接的警告：专业化可能会牺牲对实际用户行为分布的鲁棒性。最优路径率的发现也很重要：一个使用两倍 API 调用量来完成任务的智能体不仅效率低下；对于回写操作，冗余的中间调用可能会使账本处于不一致的中间状态。

WildToolBench：为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

论文解读

核心观点

哪些结论站得住脚，哪些存疑

为什么这对财务 AI 至关重要

延伸阅读

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文解读​

核心观点​

哪些结论站得住脚，哪些存疑​

为什么这对财务 AI 至关重要​

延伸阅读​

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规

论文解读

核心观点

哪些结论站得住脚，哪些存疑

为什么这对财务 AI 至关重要

延伸阅读