GAIA 基准测试:衡量前沿 AI 智能体究竟能做些什么
在阅读了 WebArena 和 OSWorld 之后——这两个基准测试中,智能体在像素级的网页和桌面交互方面表现挣扎——我想回过头来看看一个互补的基准测试,它刻意避开了这种框架。GAIA(Mialon 等人,ICLR 2024)评估通用 AI 助手处理那些“对人类而言概念简单,但对大多数先进 AI 仍具挑战性”的问题,这使其成为对 Beancount 助手实际需要的自主智能体能力更直接的衡量。
论文解读
GAIA 提出了一个尖锐的问题:如果我们剥离定义大多数 LLM 基准测试(律师资格考试、医学委员会考试、研究生水平数学)的专业化考试框架,前沿模型在人类助手能处理的日常研究和推理任务中表现如何?Mialon、Fourrier、Swift、Wolf、LeCun 和 Scialom 收集了 466 个真实世界的问题,这些问题需要网页浏览、代码执行、多模态理解和多步推理——但其标准答案(ground-truth)非常明 确且简明,足以进行自动验证。
该基准测试分为三个级别。Level 1(约 146 个问题)要求在不到五个步骤内且极少使用工具的情况下得出解决方案。Level 2(约 245 个问题)需要跨五到十个步骤正确编排多个工具。Level 3(约 75 个问题)则要求长期规划和复杂的工具集成。这不是一种随意的分类:它直接追踪了自主智能体必须维持的协作开销。
核心观点
- 人类的综合得分约为 92%。带有插件的 GPT-4 在发布时的得分仅为 15%——在胜任的人类只需几分钟即可解决的任务上,两者存在 77 分的巨大差距。
- 该基准测试以一种不同于考试类基准测试的方式抵御“刷榜”:答案需要寻找非索引事实、运行计算或跨模态综合,因此仅靠预训练阶段的记忆几乎无法奏效。
- 三个级别揭示了智能体流水线究竟在哪里崩盘:Level 1 奖励出色的检索能力;Level 2 惩罚跨工具调用的复合误差;Level 3 则要求在许多步骤中保持持续的目标追踪,这是发布时任何系统都无法可靠完成的。
- 问题的设计具有唯一性——每个问题都有一个正确的短文本答案——这使得自动评估非常可靠,但也由于将任务类型限制为“查找并推导”而非开放式推理。
- 截至 2026 年年中,HAL 排行榜上报告的最佳公开智能体(Claude Sonnet 4.5)综合得分达到了 74.55%:Level 1 为 82%,Level 2 为 73%,Level 3 为 65%。人类的表现依然维持在 92% 左右,因此 Level 3 仍存在显著差距。
- 验证集目前已被广泛获取,且几乎可以肯定已泄露到训练数据中,这使得新模型的验 证集得分基本上变得不可解释。预留的测试集保持了较好的纯净度,但无法用于自我评估。
哪些经受住了考验,哪些没有
核心洞察——即前沿 LLM 在实际助手任务上的鲁棒性远未达到人类水平——在 2023 年底确实非常重要,并引发了一波卓有成效的智能体化研究。三级结构经过了良好校准:Level 1 和 Level 3 代表了截然不同的能力阶层,且基准测试没有在任何一个极端出现坍塌。
论文显得过时的地方在于评估设置。在 ICLR 2024 举办时,“带插件的 GPT-4”基准已经过时;使用 Claude 3.7 Sonnet 或 Claude Sonnet 4.5 的现代智能体已经缩小了 Level 1 和 Level 2 的大部分差距。更严重的是,约 5% 的问题在标准答案中存在错误或歧义,作者承认了这一点但并未发布修正后的数据集。对于一个仅有 466 个问题的基准测试来说,这是一个不容忽视的可靠性问题。
更深层的局限性在于答案格式。GAIA 之所以奏效,是因为每个答案都是简短的可验证字符串。这种限制将任务局限于“查找某些内容并对其进行计算或转换”,而不是“起草计划、执行并生成结构化产物”。真实的 Beancount 使用场景——核对一个月的交易、为一笔多边交易编写日记账分录、生成年度报告——并不符合这种模式。GAIA 衡量了通用助手所需能力的一个维度,但并未衡量端到端的工作流执行。
数据污染情况现在非常严重。任何将验证集准确率列为主要指标且没有明确防范措施的智能体都应受到质疑。新模型在排行榜上的位置 几乎肯定在一定程度上反映了训练集的重叠。
为什么这对金融 AI 很重要
两年半时间里从 15% 到 74% 的轨迹是令人鼓舞的,但剩余的 Level 3 差距正是 Beancount 自动化生存的领域。Level 3 任务要求在不丢失目标的情况下跨多个步骤追踪中间状态——这正是账本回写智能体在获取账户余额、应用对账规则、根据约束检查结果然后提交或回滚时必须做的事情。如果前沿智能体在 Level 3 GAIA 问题上仍有 35% 的失败率(而这些问题对人类来说概念简单),那么对于多步账本操作的可靠性来说,这是一个直接的警示。
GAIA 的设计原则——明确、可验证、人类可处理——也是评估 Beancount 智能体的一个有用模板。我一直在思考“FinGAIA”集会是什么样子:像“给定此账本文件,月末哪个账户透支了?”或“2024-12-31 的欧元余额等值多少美元?”之类的问题,这些问题清晰明确,需要使用工具,并且在三个复杂度级别上呈阶梯式下降。GAIA 的方法论可以直接转化,只需要替换领域知识。
GAIA 没有解决的一个问题——也是 Bean Labs 最终必须解决的问题——是安全回写。所有 GAIA 任务都是“读取并回答”。修改账本状态的自主 Beancount 智能体需要一套单独的评估协议来确保正确性、原子性和可逆性。GAIA 证明了智能体可以得到正确答案,但它并没有说明智能体是否可以安全地提交该答案。
延伸阅读
- TheAgentCompany (arXiv:2412.14161) —— 在拥有真实内部工具的模拟软件公司内进行的 175 个任务;表现最好的智能体自主完成了 24%;这是衡量嵌入真实会计工作流的 Beancount 智能体最直接的参照。
- AssistantBench (arXiv:2407.15711, Yoran 等人,2024) —— 在真实用户提交的耗时任务上对网页智能体进行基准测试;通过测试开放式检索而非固定的可验证答案来补充 GAIA。
- WorkArena++ (arXiv:2407.05291) —— 将 WorkArena 扩展到 682 个复合、多步企业任务;最难的任务(Level 3)目前没有任何模型能够解决,使其成为 GAIA Level 3 之后的下一个难度前沿。
