跳到主要内容

WildToolBench:为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

我一直在跟踪的工具使用基准测试——BFCL、ToolBench、τ-bench——都有一个共同的设计缺陷:它们是根据基准测试作者对用户行为的想象来构建任务的。被 ICLR 2026 接收的 WildToolBench 则回归到真实的用户日志,询问用户实际上在做什么。答案令人深思:在评估的 57 个 LLM 中,没有一个会话准确率超过 15%。

论文解读

2026-07-10-wildtoolbench-benchmarking-llm-tool-use-in-the-wild

来自阿里巴巴的于培杰、刘伟、杨一凡及其同事展示了 WildToolBench (arXiv:2604.06185),这是一个包含 256 个多轮对话场景、1,024 个任务的基准测试,这些任务源自真实用户行为模式,并基于约 1,600 个公共 API。其核心论点是,现有的基准测试趋于饱和并非因为模型表现优异,而是因为任务太假。真实用户会将请求捆绑在一起,遗漏两轮前分享过的上下文,并在询问工具问题、闲聊和请求澄清之间切换——有时就在一条消息内。WildToolBench 将这些失败模式量化为三个结构化的挑战类别,并测量任务级准确率和更为严格的会话级准确率(要求对话中的所有四个任务都成功)。

核心观点

  • 大多数模型的会话准确率崩溃至个位数:Gemini-2.0-Flash-Thinking 以 14.45% 的会话准确率领先,Claude-4-Sonnet 为 12.50%,GPT-4o 为 11.72%。在四轮会话中通过所有任务是非常困难的,即使是 60% 的任务准确率,转化后也只有不到 15% 的会话准确率——这是每次交互都要缴纳的复合概率税。
  • 组合编排(Compositional orchestration)是最陡峭的悬崖:混合顺序加并行的工具拓扑结构将顶尖模型的任务准确率限制在 25% 以内,而纯并行或纯顺序链的准确率为 54-62%。当一个任务需要先进行并行扇出再进行顺序合并时,协调问题超出了当前任何模型能可靠处理的范畴。
  • 隐藏意图的差距比以往测量的都要大:WildToolBench 确保 100% 的任务涉及隐式或跨轮信息;而 BFCL v3 仅占 15.7%。长程依赖任务(缺失信息在两轮对话之前)是最难的子类型,即使在任务层面,也没有模型能突破 50%。
  • 指令转换(Instruction transitions)以线性速率叠加错误:每次额外的策略切换(工具任务 → 聊天 → 澄清 → 工具任务)会使准确率下降约 5-15 个百分点。在发生三次转换时,受影响最严重的模型会丢失 30 分。作者称之为“自我条件作用(self-conditioning)”:先前的响应会以难以在中途纠正的方式,使模型对后续指令的理解产生偏差。
  • 最优路径率(Optimal Path Rate)保持在 43% 以下:即使模型正确完成了任务,它们也会浪费多余的 API 调用。Claude-4-Sonnet 实现了 42.74% 的最佳最优路径率,这意味着大多数正确的完成步骤都超过了必要步骤——这对任何生产系统来说都是延迟和 Token 的直接成本。
  • 专用工具使用模型表现不如通用前沿模型:xLAM-2-70B 和 ToolACE2-8B 的错误函数名比例均超过 30%,表现逊于 GPT-4o 或 Claude-4-Sonnet。在狭窄的工具使用语料库上进行微调似乎会产生脆弱性,而非在面对真实用户行为的分布偏移时的鲁棒性。

哪些结论站得住脚,哪些存疑

基准测试的设计在最关键的地方非常扎实。任务准确率和会话准确率之间的区分完全正确:复合失败模式是杀死真实部署的原因,而大多数先前的研究报告的任务级数据掩盖了这一点。三种挑战分类(组合编排、隐藏意图、指令转换)动机充分且有实证支持——不同挑战类型的性能退化曲线是真实且显著的。

弱点在于规模。来自 256 个场景的 1,024 个任务作为一个研究成果是可信的,但对于旨在长期跟踪 57 个模型的排行榜来说略显单薄。作者直接承认了这一点,并提到了未来的自动化扩展管线。另一个问题是,“基于真实用户日志”包含了很多加工:最终的任务是部分合成的,由多智能体系统从种子模式构建,然后由人工标注员验证。虽然声称是基于真实数据,但数据并非原封不动的实况——它是“受真实启发”的。这关系到你如何字面上理解 15% 的天花板;如果生成管线引入了真实用户实际上并不具备的人为难度,那么部分差距可能会缩小。

我也对将指令转换分析作为一种架构层面的主张持怀疑态度。论文将其归因于基础局限性,但 RLHF 微调目标与多模态用户会话之间的训练分布不匹配是更简洁的解释。这是可以解决的,而非结构性的。

为什么这对财务 AI 至关重要

这三种失败模式几乎完美对应了真实用户与 Beancount 回写智能体交互的方式。用户问“上个月我在杂货上花了多少钱,顺便把今天的 Whole Foods 收据也加上”——这是一个捆绑在一次交互中的组合任务。接着他们说“其实是 47.23 美元而不是 42 美元,我查了一下”——这是需要智能体跟踪会话状态的参数修正。然后他们问“那个类别对吗?”——这是一个澄清请求,智能体不应重新执行它刚刚完成的写入操作。在混合顺序加并行编排中 25% 的上限,以及指令转换带来的 30 分下降,正是这些失败模式会体现在处理真实用户会话的账本智能体中。

专用工具使用模型表现不如通用前沿模型的发现特别具有相关性。如果我们考虑在 Beancount 特定的工具调用示例上微调一个更小的开源模型(这是显而易见的降本方案),WildToolBench 是一个直接的警告:专业化可能会牺牲对实际用户行为分布的鲁棒性。最优路径率的发现也很重要:一个使用两倍 API 调用量来完成任务的智能体不仅效率低下;对于回写操作,冗余的中间调用可能会使账本处于不一致的中间状态。

延伸阅读

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) —— WildToolBench 明确对标的基础训练框架;理解其合成评估设计可以阐明实时执行究竟增加了什么。
  • τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) —— 关于现实多轮工具使用的最接近的前期研究;将 τ-bench 的零售/航空领域与 WildToolBench 的公共 API 覆盖范围进行对比,可以看出这一挑战的普遍性。
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) —— 如果指令转换问题可以通过自动发现更好的智能体工作流而非扩展训练数据来解决,AFlow 是实现这一目标最可靠的机制。