跳到主要内容

Chain-of-Table:LLM 推理链中的演进表格

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

关于表格推理,我总会回到同一个令人不安的观察:当 LLM 使用纯文本思维链(CoT)来解释其对表格的处理时,它们是在用一种表示形式叙述,却在对另一种形式进行推理。Chain-of-Table 是一篇发表在 ICLR 2024 上的 Google Research 论文,它正视了这种矛盾并提出了一个简单的解决方案——让表格本身承载中间推理状态,而不是文本。

论文概述

2026-06-11-chain-of-table-evolving-tables-reasoning-chain

Wang 等人发表了《Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding》(arXiv:2401.04398, ICLR 2024)。该论文解决了标准思维链(CoT)提示词在处理表格数据时的缺陷:CoT 使用自然语言进行推理,但表格是结构化的产物,用语言叙述表格变换既冗长又容易产生信息丢失。核心思想是让 LLM 规划一系列程序化的表格操作——过滤(filter)、分组(group)、排序(sort)、选择列(select column)、添加列(add column)——执行每一步操作以生成中间表格状态,并将演进后的表格作为下一步的输入反馈给 LLM。最终答案是从终端表格状态生成的,而不是从长文本链中生成的。作者做了一个明确的类比:就像 SQL 开发一样,熟练的分析师会编写中间步骤的 CREATE TABLE ... AS SELECT,而不是一个单一的巨型查询。Chain-of-Table 为 LLM 代理(Agent)规范了这一实践。

该研究评估涵盖了三个基准测试:WikiTableQuestions (WikiTQ)、TabFact 和 FeTaQA。主要模型使用 PaLM 2,并在 GPT-3.5 和 LLaMA 2 70B 上进行了交叉验证。

核心观点

  • Chain-of-Table 在 WikiTQ 上的指代准确率(denotation accuracy)达到 67.31%,而之前最强的基准模型 Dater 为 61.48%,提升了 5.83 个百分点。
  • 在超过 4,000 个 token 的表格上,优势扩大到 +10.25 个百分点(44.87% 对比 34.62%),这也是该方法在实践中最具意义的地方。
  • TabFact 准确率达到 86.61%,超过了 Dater 的 84.63%;FeTaQA 的 BLEU 分数从 29.47 提升至 32.61。
  • 五个原子操作——f_select_rowf_select_columnf_group_byf_sort_byf_add_column——涵盖了这些基准测试中观察到的大多数推理模式;其中 f_group_by 在 WikiTQ 上发挥了最大作用,因为“计数”是该测试中最主要的失败模式。
  • Chain-of-Table 对每个问题最多需要生成 25 个样本,而 Binder 需要 50 个,Dater 需要 100 个。在获得更高准确率的同时实现了 50%–75% 的效率提升,这在 LLM 研究中确实少见,因为通常情况下这两者之间存在权衡。
  • 该方法具有模型无关性:在 PaLM 2、GPT-3.5 和 LLaMA 2 上均一致优于文本 CoT 基准。

优缺点分析

该论文的核心实验贡献非常扎实。基准测试是标准化的,对比基准也是公平的,效率方面的提升非常有说服力。将表格本身作为显式的中间表示,而不是用散文进行叙述,是一个清晰且具有直观驱动力的想法。在大表格上的结果是最有力的证据:当表格勉强能放入上下文窗口时,通过操作逐步将其修剪至关键内容,显然比生成更多的文本要好。

即便如此,该论文仍存在一些空白。错误传播(error propagation)分析较为表面。如果 LLM 在五步链条的第二步生成了错误的 f_select_row 参数,随后的每个操作都会在受损的中间表格上运行,最终答案将毫无意义。论文报告了总体准确率,但没有分析推理失败中有多少是由于早期错误与后期错误导致的,也没有探讨该方法对部分错误操作的鲁棒性。对于一个依赖于一系列正确调用的方法来说,这是一个显著的缺失。

操作词汇表也是一种押注。这五种操作涵盖了 WikiTQ 和 TabFact 中的大多数模式,是因为这些基准测试是围绕关系型表格任务设计的。现实世界中的财务报表——资产负债表、账本试算平衡表、税务明细表——通常需要跨相关表进行关联(join)、带条件的计算聚合(例如:当账户以 '6' 开头时计算借方总和),以及透视(pivot)转换。操作集中并未包含这些。作者隐含地承认了这一点,但并未进行测试。

最后,缺乏关于为什么中间表格状态优于中间文本的理论解释。直觉上很有吸引力,但论文纯粹是经验性的。后续研究(如 TableMaster, arXiv:2501.19378; H-STAR, NAACL 2025)迅速转向了混合 SQL 和文本推理的自适应混合方法,这表明社区也发现了同样的缺口:纯表格操作并非普遍更好,只是在测试的基准上表现更好。

为什么这对财务 AI 很重要

对于 Beancount 账本代理而言,Chain-of-Table 的架构几乎完美契合了我对回写流水线(write-back pipeline)的设想。一个类似于“除去标记为 :ignore 的交易,第一季度按类别统计的净支出是多少?”的 Beancount 查询,恰恰需要论文中提出的那种顺序表格变换:按日期过滤行、按标签过滤、按账户类别分组、求和金额。如果代理能将此规划为一系列显式的中间操作链,而不是生成单个查询或在文本中推理,那么审计轨迹将非常清晰,且每一步都是独立可验证的。

大表格效率的提升也直接相关。一个拥有数万条交易、跨越多年的 Beancount 账本在实例化后很容易超过 4,000 个 token。在这种情况下 10 个百分点的提升并不是基准测试的数字游戏,它反映了在进行精确推理之前,必须逐步缩小表格规模的真实需求。

对于 Beancount 来说,缺失的部分是关联(join)操作。复式簿记跨账户链接交易,任何对账任务都需要跨至少两个账户的时间线进行推理。Chain-of-Table 的发表版本无法表达这一点。将操作词汇表扩展到包括跨账户关联,是生产级 Beancount 推理代理的下一个显而易见的工程步骤。

延伸阅读

  • Chain-of-Query: Unleashing the Power of LLMs in SQL-Aided Table Understanding via Multi-Agent Collaboration (2025, arXiv:2508.15809) —— 将操作概念扩展到多代理 SQL 生成,解决了关联(join)操作的缺失。
  • TableMaster: A Recipe to Advance Table Understanding with Language Models (arXiv:2501.19378) —— 引入了在表格操作和文本 CoT 之间切换的自适应推理;是 Chain-of-Table 最直接的后续研究。
  • DATER: Decomposition-based Text-to-SQL for LLMs over Long Context (arXiv:2308.01463) —— 针对大模式下复杂 SQL 的互补分解方法,对 beanquery 自然语言接口设计具有参考意义。