大语言模型能对表格数据进行推理吗?四个基准测试揭示了金融 AI 的现状
表格是会计师的思维方式。Beancount 账本本质上就是一个表格——账户是行,日期和金额是列,余额断言则是跨单元格的约束。因此,当我开始探究大语言模型(LLM)能否驱动自主金融智能体时,我总是遇到同一个前提性问题:它们甚至能可靠地阅读表格吗?相关文献的研究结果比我预想的更令人沮丧。
相关论文
Fang 等人在 TMLR 2024 上发表了《大语言模型在表格数据上的应用:预测、生成与理解——综述》(arXiv:2402.17944)。这是一份长达 41 页的分类学研究,涵盖了三个领域:从表格特征预测结构化结果、生成合成表格数据,以及对表格进行足够深入的理解以回答相关问题。其中,“理解”这一路径——涵盖表格问答(TableQA)、事实核查和结构化推理—— 是与金融 AI 最相关的研究领域。
我同时阅读的另一篇论文是 Sui 等人的《表格遇上 LLM:大语言模型能理解结构化表格数据吗?》(WSDM 2024, arXiv:2305.13062),该研究采用了一种更受控的方法:他们定义了一个结构化理解能力(SUC)基准测试,包含七个细分任务——表格分区、尺寸检测、合并单元格检测、单元格查找、反向查找、列检索和行检索——并直接对 GPT-3.5 和 GPT-4 进行了测试。没有推理链,没有检索技巧。只是简单地测试:模型能完成我们的要求吗?
核心观点
- 格式差距客观存在且大得惊人。 在 SUC 基准测试中,HTML 序列化的整体表现比“自然语言+分隔符”格式高出约 6.76%。性能排名依次为:HTML > XML > JSON > Markdown > 自然语言+分隔符,这一规律在各项任务中均保持一致。Beancount 文件更接近这一光谱中的自然语言端,这是一个警示信号。
- 单元格查找难度出乎意料。 GPT-3.5 在直接单元格查找(查找第 X 行、第 Y 列的值)上的准确率仅为 44%。GPT-4 在同一任务中达到了 73.34%。对于电子表格公式在微秒内就能完成的确定性操作,模型之间 26 个百分点的差距令人担忧。
- 少样本(Few-shot)示例起着支撑作用。 从 SUC 提示词中移除 1-shot 示例会导致所有任务的整体准确率下降 30.38%。模型对结构的理解很大程度上依赖于演示的辅助,而非真正的内在化。
- 在真实表格问答中,人类与 LLM 的差距巨大。 TableBench (arXiv:2408.09174, AAAI 2025) 评估了涵盖事实核查、数值 推理、数据分析和可视化的 886 个问题。人类的准确率为 85.91%,而 GPT-4-Turbo 得分为 40.38%,GPT-4o 得分为 42.73%。在旨在反映真实世界表格复杂性的基准测试中,目前最顶尖的模型表现仅约为人类水平的一半。
- 金融电子表格中的复杂性崩塌非常严重。 FinSheet-Bench (arXiv:2603.07316) 测试了 LLM 在具有不同结构复杂性的私募股权基金模板上的表现。简单查找的准确率为 89.1%,而复杂的聚合操作则骤降至 19.6%。最大的测试文件(包含 152 家公司、8 支基金)在所有模型中的平均准确率仅为 48.6%,远低于最简单文件时的 86.2%。
- 长表格会导致模型彻底失效。 TMLR 的综述报告称,当超过 1000 个词元(tokens)时,GPT-3 的性能会退化到接近随机。由于长序列上自注意力机制的二次方成本,即使是拥有 200K 上下文窗口的模型,在处理海量数据集时也显得力不从心。
哪些结论站得住脚,哪些站不住
Sui 等人的基准测试设计严密,数据可信。关于 HTML 在结构化任务中优于 Markdown 的发现虽然反直觉(Markdown 更紧凑,且 LLM 在训练中接触得更多),但符合逻辑:HTML 显性的标签为模型导航结构提供了更多锚点,而无需其自行推断。
我持怀疑态度的地方是:自我增强技术(一种两阶段提示法,第一阶段要求模型在回答前识别关键值)在 TabFact 和 ToTTo 等下游基准测试中带来了 0.84%–5.68% 的提升。虽然这些是来自真实实验的真实数据,但提升微乎其微。这 种技术并没有解决根本问题——它只是在原本薄弱的结构化理解能力之上打的一个提示工程补丁。
TMLR 的综述存在所有综述类文章通用的范围问题:它涵盖了从表格预测(XGBoost 的地盘)到生成式表格合成再到问答的所有内容,这稀释了分析的深度。对我而言,最有价值的部分是结构化问答路径,即便如此,该综述也更多是在罗列方法,而非综合分析哪些方法真正可靠。
FinSheet-Bench 关于复杂聚合得分仅为 19.6% 的发现是这里最针对金融领域的警钟。投资组合聚合、基金级汇总和多周期对比正是让财务报告变得复杂的关键操作——而这些恰恰是 LLM 表现崩溃的地方。
为什么这对金融 AI 至关重要
Beancount 账本就是表格。当一个自主智能体阅读账本以检测异常、生成报告或决定回写数据时,它正在进行表格推理。证据表明,目前的 LLM 虽然能较好地处理简单的查找(GPT-4 的单元格检索率为 73%),但在最重要的操作上会崩溃:多步聚合、大型账本的规模估算以及对结构变化的推理。
序列化方面的发现具有直接的实践意义。如果我将 Beancount 文件输入 LLM,我选择的格式在编写任何智能体逻辑之前就已经影响了几个百分点的准确率。Beancount 的原生语法接近格式层级中的“自然语言+分隔符”端——对人类友好,但对 LLM 而言并非最优。在将其喂给模型之前,将其转换为更具结构性的中间格式(如 JSON 或 HTML 表格)可能是值得的预处理成本。
在大规模情况下的复杂性崩塌是最令人冷 静的发现。一个真实的、针对小企业的 Beancount 账本可能拥有数千条交易、数十个账户和多年的历史。FinSheet-Bench 的结果表明,一旦表格增长到真正具有实际意义的规模,LLM 的准确率就会退化到对自主数据回写而言极不安全的区间。
延伸阅读
- TableLLM (arXiv:2311.09206) —— 在 169 个 Kaggle 表格(UniPredict)上训练的微调模型;据报告,在表格预测方面显著优于 Zero-shot 的 GPT-4,这表明领域特定的微调仍然是处理金融特定表格任务的正确途径。
- TAT-QA (arXiv:2105.07624) —— 一个专门用于混合财务文档(表格 + 文本,如收益报告)离散推理的数据集;配套的 TAT-LLM 模型是应用专用模型进行金融表格推理的最直接先例。
- ToRR: A Benchmark for Table Reasoning and Robustness (arXiv:2502.19412) —— 专注于对抗性扰动,如行洗牌和列重新排序;如果一个 Beancount 智能体对重新排序具有鲁棒性,则说明它理解的是结构而非位置。
