τ-bench:评估 AI 代理在现实世界工具调用领域的可靠性
τ-bench 表明,像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中,其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。
τ-bench 表明,像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中,其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。
Chain-of-Table (ICLR 2024) 通过将表格本身作为演进的中间状态来改进 LLM 的表格推理能力。在 WikiTQ 数据集上达到了 67.31% 的准确率,而之前的基准为 61.48%。在超过 4,000 个 token 的大表格上,其优势达到了 +10.25 个百分点,且可直接应用于 Beancount 账本查询代理。
TableLlama 在 260 万个表格任务示例上对 Llama 2 (7B) 进行了微调,在列类型标注等结构化任务上击败了 GPT-4(F1 值 94 对 32),但在 WikiTQ 组合推理上落后 33 分——这为 7B 开源模型在当今金融 AI 领域的能力边界提供了一个经过校准的基准。
TAPAS(Google Research, ACL 2020)通过选择单元格并应用标量聚合来回答表格问题,无需生成 SQL。本文分析了其架构、在 SQA 上 12 个百分点的准确率提升,以及为什么单元格选择范式适用于小型 Beancount 账本查询,但在大规模场景下会失效。
MAC-SQL (COLING 2025) 使用三个专用智能体——用于模式缩减的 Selector、用于问题分解的 Decomposer 以及用于执行引导的 SQL 纠错的 Refiner——在 BIRD 基准测试上达到了 59.59% 的执行准确率;消融实验表明 Refiner 的贡献最大(+4.63 分),这对 Beancount 账本查询生成具有直接意义。
DIN-SQL (NeurIPS 2023) 将文本转 SQL 分解为模式链接、复杂度分类和 SQL 生成阶段,在不进行微调的情况下,将 GPT-4 在 Spider 上的执行准确度从 67.4% 提升至 85.3% —— 这种分解策略也可以直接应用于 Beancount 的 BQL 查询语言的自然语言接口。
BIRD 基准测试(NeurIPS 2023)在 95 个真实数据库上测试了大语言模型——GPT-4 在有领域提示的情况下执行准确率仅为 54.89%,而没有提示时仅为 34.88%。这 20 个百分点的差距直接决定了 Beancount 自然语言 BQL 接口需要 解决的问题。
CMU 和北卡罗来纳州立大学的研究人员提出利用系统理论过程分析 (STPA) 和能力增强的模型上下文协议 (MCP) 为 LLM 智能体工具使用推导形式化安全规范,并通过基于 Alloy 的验证在日历调度案例研究中证明了不存在不安全流。
微软的 GraphRAG 在文本语料库上构建了一个基于 Leiden 分区的实体图,并预先计算社区摘要,以回答标准向量 RAG 无法处理的全局理解问题——但 2025 年的一项偏差审计显示,在修正了 LLM 作为裁判评估中的位置和长度偏差后,其 72–83% 的胜率大幅下降。
FinAuditing 在 1,102 个真实 SEC XBRL 申报实例上对 13 个大语言模型进行了零样本测试;财务数学验证的最高分仅为 13.86%,概念检索的最高分为 12.42% —— 这些结果直接限制了在没有外部工具的情况下,可以信任 AI 会计工具自动执行的任务范围。