AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示
· 阅读需 6 分钟
当我思考一个 Beancount 回写代理究竟需要可靠地执行什么任务时,答案并不是“生成文本”,而是在“结构化环境中执行一系列操作而不偏离正轨”。AgentBench(Liu 等人,清华大学,ICLR 2024)是首次大规模衡量这种能力的严肃尝试之一,其 2023 年的数据快照中仍包含值得借鉴的经验。
论文概览
AgentBench 由清华大学的 Xiao Liu 及其 21 位共同作者开发,定义了八个环境,旨在压力测试作为交互式代理(而非被动文本生成器)的 LLM。五个环境是原创的:OS(bash 交互)、Database(SQL 生成与错误恢复)、Knowledge Graph(基于工具的结构化查询)、Digital Card Game(多轮策略对抗)以及 Lateral Thinking Puzzles(演绎对话)。三个改编自先前的资料集:House-Holding(来自 ALFWorld)、Web Shopping(来自 WebShop)和 Web Browsing(来自 Mind2Web)。论文评估了 27 个 模型 —— 包括商业 API 模型 and 最高 70B 的开源模型 —— 涵盖约 4,000 个开发集(dev-split)和 13,000 个测试集(test-split)生成,并报告了每个环境的成功率和综合总分。
核心观点
- GPT-4 以 4.01 的总分领先。Claude-2 得分为 2.49,GPT-3.5-turbo 为 2.32。CodeLlama-34B 是投稿时最强的开源模型,得分仅为 0.96。API 模型整体平均分为 2.24,而开源模型仅为 0.42。
- GPT-4 在 OS 上的得分为 42.4%,Database 为 32.0%,House-Holding 为 78.0% —— 这些差异揭示了哪些环境更看重指令遵循,哪些更看重结构化推理。
- “超出任务限制”(Task Limit Exceeded)是主要的失败模式:知识图谱(Knowledge Graph)中 67.9% 的失败是因为在解决任务前耗尽了步骤预算。这属于长期推理失败,而非知识储备不足。
- 格式合规性错误占数据库(Database)任务失败的 53.3% —— 代理生成了语法错误的 SQL,或在查询语句外包裹了评估器无法解析的描述性文字。
- 无效操作选择(Invalid action selection)导致了 64.1% 的 House-Holding 失败 —— 代理给出了在当前状态下不可用的操作名称。
- 代码训练对各项任务具有“矛盾的影响”:它有助于程序遵循类环境,但在重对话的环境中可能会损害通用推理能力。