TAT-QA:针对财务年报推理的混合表格-文本问答基准
今天阅读 TAT-QA 是因为它正处于与我们正在构建的内容直接相关的交汇点:那些只能通过同时对表格及其周围文本进行推理才能回答的问题。在 Beancount 中,每个账本分录都存在于特定的上下文中——如果脱离了摘要 (memo)、交易对手描述或解释该行项目存在原因的账户策略,表格中的一行数据就失去了意义。TAT-QA 由新加坡国立大学 NExT++ 实验室的 Zhu 等人于 ACL 2021 发表,这个基准测试迫使 NLP 社区直面这一问题。
论文详解
Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng 和 Tat-Seng Chua 介绍了 TAT-QA (Tabular And Textual QA),这是一个包含 16,552 个问题的数据集,涉及从真实财务年报中提取的 2,757 个混合语境。每个语境都将半结构化表格与至少两个配套段落配对——这正是你在 10-K 文件中看到的结构,其中收入表紧挨着管理层对驱动这些数字的因素的讨论。几乎所有问题都需要算术运算:加、减、乘、除、计数、比较、排序以及多步操作组合。
核心贡献有两方面:基准测试本身,以及 TAGOP,一种将任务视为证据标注后进行符号推理的新模型。TAGOP 在拼接的表格单元格和文本片段上使用序列标注器,以识别要收集哪些证据,然后应用一组固定的聚合算子(求和、差值、乘积、比率、计数等)来计算最终答案。没有神经算术——计算过程本身始终委托给符号执行器。
核心观点
- 证据识别是难点,而非算术。 TAGOP 的错误分析显示,约 55% 的失败归因于标注错误,29% 归因于缺失证据。一旦找到了正确的单元格和文本片段,符号执行器极少出错。这是一个直接信号:对于财务智能体 (finance agents) 来说,检索和证据定位 (grounding) 步骤占主导地位。
- 纯文本模型立即失效。 BERT-RC 在测试集上的 F1 分数仅为 18.7%。NumNet+ V2 是 TAT-QA 之前最好的数值阅读器,达到了 46.9% 的 F1 分数。纯表格模型 TaPas 基准测试得分为 22.8%。一个只读表格而不读文本,或只读文本而不读表格的模型,在这一领域是不合格的。
- TAGOP 获得了 58.0% 的 F1 分数(50.1% 的精确匹配),而人类专家获得了 90.8% 的 F1 分数(84.1% 的 EM)。 发表时 32.8 个点的 F1 差距是令人震惊的。这意味着即使是 2021 年最好的系统,能回答的问题也不到受过训练的分析师所能处理问题的三分之二。
- 到 2024 年底,排行榜呈现出不同的局面。 排名第一的系统 TAT-LLM (70B) 达到了 88.4% 的 F1 分数——仅比人类低 2.4 个点。TAT-LLM (7B) 达到了 82.88% 的 F1,而 GPT-4 在零样本 (zero-shot) 下达到了 79.71% 的 F1。差距大幅缩小,这主要通过 LLM 大规模微调实现。
- 专业化微调仍优于原生 GPT-4。 在 TAT-QA 上,TAT-LLM 7B (74.56% EM) 的表现优于 GPT-4 零样本 (71.92% EM),尽管其参数量仅为后者的几分之一。TAT-LLM 使用的“提取器→推理器→执行器”分步流水线反映了 TAGOP 的直觉,但用提示词引导的 LLM 取代了符号标注器。
哪些观点经受住了考验,哪些没有
该基准测试采用的是真实数据、真实问题和真实财务报告。这种可信度是它最大的资产。发表时 32 个点的人机差距是真实存在的,而且该数据集足够难,以至于五年后顶级系统仍未完全弥补这一差距。
令我担忧的是单表假设。每个 TAT-QA 语境只包含一个表格。真实的年报包含数十个表格,通常在部门、子公司和时间跨度之间存在层级关系。一个能完美回答 TAT-QA 问题的模型,面对主导实际会计工作的跨表合并时,仍然显得力不从心。MMQA 论文 (ICLR 2025) 正好指出了这一点——像 TAT-QA 这样的单表基准测试低估了从业者面临的多表复杂性。
答案类型的分布在实践中也没有看起来那么难。大约 42% 的 TAT-QA 答案是单一片段——即不需要计算的直接提取。具有挑战性的多步操作组合只占少数。一个模型如果提取全部正确但算术全部错误,仍能获得 30–40% 左 右的分数。该基准测试没有根据难度加权,这削弱了来自真正困难推理案例的信号。
最后,人类基准 (90.8% F1) 是由能接触到文档但可能并非注册会计师 (CPA) 级别的标注员计算出来的。对于 Beancount 规模的账本推理——智能体必须理解会计准则而不仅仅是算术——90.8% 可能高估了“正确”的上限。
为什么这对财务 AI 至关重要
TAT-QA 是目前与 Beancount 智能体日常面对的任务最接近的公开基准:结构化的分录数据(表格)紧挨着非结构化的叙述(摘要、描述、政策说明)。TAGOP 的结果证实了我对构建账本工具的预期——定位比计算更难。标记正确的单元格才是问题所在;对它们求和是微不足道的。
排行榜的轨迹对产品开发来说是令人振奋的:一个在该领域微调过的 7B 参数模型优于 GPT-4 零样本,这表明特定于 Beancount 的微调模型可以处理检索+算术工作负载,而无需为每个账本查询调用尖端模型 API。延迟、成本和数据隐私都会得到改善,如果我们可以本地运行一个小巧的专业模型。
单表限制是 Bean Labs 需要弥补的直接差距。Beancount 账本实际上是多表文档——账户过账、预算线、对账单——而能够捕获相关表之间这种多跳结构的基准测试尚未完全出现。MultiHiertt (ACL 2022) 是最接近的;它是我的阅读清单上的下一篇论文。