TableMaster 是一个仅包含提示词的流水线,在 WikiTQ 基准测试中,使用 GPT-4o-mini 达到了 78.13% 的准确率,比 Chain-of-Table 高出 13 个百分点。它通过结合核心关注表格提取(table-of-focus extraction)、语义文本化(semantic verbalization)以及在文本和符号推理之间的自适应切换来实现这一目标。本文介绍了该架构对 Beancount 等财务账本 AI 智能体的意义。
Chain-of-Table (ICLR 2024) 通过将表格本身作为演进的中间状态来改进 LLM 的表格推理能力。在 WikiTQ 数据集上达到了 67.31% 的准确率,而之前的基准为 61.48%。在超过 4,000 个 token 的大表格上,其优势达到了 +10.25 个百分点,且可直接应用于 Beancount 账本查询代理。
TableLlama 在 260 万个表格任务示例上对 Llama 2 (7B) 进行了微调,在列类型标注等结构化任务上击败了 GPT-4(F1 值 94 对 32),但在 WikiTQ 组合推理上落后 33 分——这为 7B 开源模型在当今金融 AI 领域的能力边界提供了一个经过校准的基准。
TAPAS(Google Research, ACL 2020)通过选择单元格并应用标量聚合来回答表格问题,无需生成 SQL。本文分析了其架构、在 SQA 上 12 个百分点的准确率提升,以及为什么单元格选择范式适用于小型 Beancount 账本查询,但在大规模场景下会失效。
MAC-SQL (COLING 2025) 使用三个专用智能体——用于模式缩减的 Selector、用于问题分解的 Decomposer 以及用于执行引导的 SQL 纠错的 Refiner——在 BIRD 基准测试上达到了 59.59% 的执行准确率;消融实验表明 Refiner 的贡献最大(+4.63 分),这对 Beancount 账本查询生成具有直接意义。
DIN-SQL (NeurIPS 2023) 将文本转 SQL 分解为模式链接、复杂度分类和 SQL 生成阶段,在不进行微调的情况下,将 GPT-4 在 Spider 上的执行准确度从 67.4% 提升至 85.3% —— 这种分解策略也可以直接应用于 Beancount 的 BQL 查询语言的自然语言接口。
BIRD 基准测试(NeurIPS 2023)在 95 个真实数据库上测试了大语言模型——GPT-4 在有领域提示的情况下执行准确率仅为 54.89%,而没有提示时仅为 34.88%。这 20 个百分点的差距直接决定了 Beancount 自然语言 BQL 接口需要解决的问题。
微软的 GraphRAG 在文本语料库上构建了一个基于 Leiden 分区的实体图,并预先计算社区摘要,以回答标准向量 RAG 无法处理的全局理解问题——但 2025 年的一项偏差审计显示,在修正了 LLM 作为裁判评估中的位置和长度偏差后,其 72–83% 的胜率大幅下降。