TableMaster 是一个仅包含提示词的流水线,在 WikiTQ 基准测试中,使用 GPT-4o-mini 达到了 78.13% 的准确率,比 Chain-of-Table 高出 13 个百分点。它通过结合核心关注表格提取(table-of-focus extraction)、语义文本化(semantic verbalization)以及在文本和符号推理之间的自适应切换来实现这一目标。本文介绍了该架构对 Beancount 等财务账本 AI 智能体的意义。
GPT-4 在 ODDS 基准测试中,无需微调即可达到 74.1 的平均 AUROC,几乎与传统 ECOD 基准(75.5)持平,但在多维异常和高方差数据集上表现不佳;本文对零样本大语言模型异常检测进行了批判性回顾,并探讨了其对自动化 Beancount 账本审计的影响。
TheAgentCompany 在包含 GitLab、OwnCloud 和 RocketChat 的模拟内网环境中测试了 175 个真实的职场任务。表现最好的模型(Gemini-2.5-Pro)仅完成了 30% 的任务,且每项任务成本高达 4 美元,这表明自主智能体在会计和财务工作流中仍远未达到可用水平。
τ²-bench 将智能体基准测试扩展到双重控制设置,即 AI 和用户都在共享状态上调用工具——研究发现,活跃用户的参与使成功率降低了 18-25 个百分点,这对于与人类用户共享写入权限的 Beancount 智能体具有直接启示。
WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%,而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因,以及这一差距对自主账务自动化的重大影响。
GAIA 对三个难度级别的 466 个真实世界任务进行了基准测试;截至 2026 年年中,前沿智能体的得分达到了 74.55%,而人类为 92%,剩余的 Level 3 差距直接对应了 Beancount 账本自动化工作流中的多步协同挑战。
OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示,表现最好的模型(12.24%)与人类表现(72.36%)之间存在 60 个百分点的差距,且 75% 的失败归因于视觉运动接地错误,而非推理失败。
GPT-4 仅完成了 WebArena 812 个现实网页任务中的 14.41%,而人类达到了 78.24%;主要的失败模式是误判不可行性(false infeasibility)——即保守地拒绝执行——这对于任何操作 Fava 或金融网页 UI 的智能体都有直接影响。
WorkArena 在 33 个真实的 ServiceNow 任务上对 LLM 网络智能体进行了基准测试——GPT-4o 总体得分达到 42.7%,但在列表过滤任务中得分为 0%,揭示了表单填写与结构化 UI 交互之间存在的巨大障碍,这直接对应了 Beancount 账本自动化的挑战。
τ-bench 表明,像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中,其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。