跳到主要内容

TAT-LLM:针对金融表格和文本离散推理进行微调的 LLaMA 2

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

在研究了一周的检索和知识注入之后,我想看看当任务定义明确时,针对性微调究竟能带来什么?TAT-LLM(arXiv:2401.13223,ICAIF 2024)给出了一个清晰的答案:通过结构化流水线在金融表格文本问答基准上微调 LLaMA 2,并击败了 GPT-4。一如既往,关键在于细节。

论文内容

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

来自新加坡国立大学 NExT++ 实验室的 Fengbin Zhu、Ziyang Liu、Fuli Feng、Chao Wang、Moxin Li 和 Tat-Seng Chua 提出了 TAT-LLM,这是一个针对混合表格和文本数据进行离散推理微调的 LLaMA 2 模型。其核心问题是回答有关财务报告的数值问题——这类问题需要你定位表格中的特定行,提取两个数字,并执行多步算术运算以得出答案。这正是人类在阅读 10-K 文件时所做的。

作者并没有采用端到端的提示大模型,而是将任务分解为三个明确的步骤:提取器(Extractor),用于从文档中识别相关的数值证据;推理器(Reasoner),用于编写算术表达式;以及执行器(Executor),用于确定性地运行该表达式。训练数据通过自动化的方式从现有的专家注释数据集(FinQA、TAT-QA 和 TAT-DQA)生成,为每个实例标注了中间提取和推理步骤。微调在 LLaMA 2 的三个规模(7B、13B 和 70B)上使用了 LoRA 技术。

关键思路

  • 流水线分解优于端到端:外部执行器(确定性算术)仅在 7B 模型上就为 FinQA 增加了 +16.66 个 EM 分值。算术对模型来说并不难,但在使用自然语言进行计算时,其可靠性极低。
  • 7B 模型在所有三个基准测试中均击败了 GPT-4:TAT-LLM 7B 在 FinQA 上的得分为 64.60% EM(对比 GPT-4 的 63.91%),在 TAT-QA 上为 74.56% EM(对比 71.92%),在 TAT-DQA 上为 69.45% EM(对比 64.46%)。TAT-DQA 的差距最为显著,接近 5 个百分点。
  • 提取是主要的失效模式:误差分析显示,48% 的错误源于证据提取错误——模型识别了错误的行、列,或因不熟悉的金融术语而误读了数字。只有 19% 是算术运算符错误。
  • 规模提升有限:70B 的联合训练变体(TAT-LLM-All)将 FinQA 的 EM 提升至 76.81%,TAT-QA 的 F1 提升至 81.42%,这些都是有意义的提升。但 7B 模型已经超过了 GPT-4,这表明流水线结构比参数量更重要。
  • 人类专家依然遥遥领先:在 TAT-QA 上,人类的表现为 90.8% F1;TAT-LLM 的最佳结果为 81.42% F1。差距确实存在,论文也承认了这一点。

哪些站得住脚,哪些站不住

核心技术贡献是扎实的:将算术运算卸载给确定性执行器显然是正确的选择,消融实验果断地证明了这一点。这是从 PAL 和类似工作中得出的众所周知的经验,但在针对金融的基准测试中看到其被量化(+16.66 分)是很有价值的确认。

我比较怀疑的是“超越 GPT-4”的头条说法。在 FinQA 上的领先优势仅为 0.69 个 EM 百分点——这基本上处于噪声范围内,而且 GPT-4 的数据反映的是零样本或轻微提示的评估,而不是配备了思维链、少样本示例或其自带代码解释器的 GPT-4。一个带有 Python 工具调用的提示词工程后的 GPT-4 几乎肯定会超过这些数字。这种对比没有错,但并不完全是摘要中所暗示的“专业化取胜”的故事。

此外,还存在严重的评估泄露担忧。该模型是在 FinQA、TAT-QA 和 TAT-DQA 的训练集上进行微调的,并在它们的测试集上进行评估。这是一个狭窄的分布内场景。论文没有包含模型在训练期间从未见过的留出金融问答任务,因此对新文档类型或新算术模式的泛化能力尚未得到证明。

4,096 标记的上下文限制是实际应用中处理真实财务报告的硬伤。典型的 10-K 文件长达 100 多页;即使是单份季度财报也经常超过 4,096 标记。如果不进行分块(chunking),所描述的模型无法处理其设计初衷所针对的输入,而论文并未涉及当证据跨越多个分块时,提取性能会如何下降。

为什么这对金融 AI 很重要

“提取器-推理器-执行器”的分解直接适用于 Beancount 智能体。当用户询问“2025 年第一季度我的食品总支出相对于 2024 年第一季度是多少?”时,自然的结构是:定位相关交易(提取),构建聚合表达式(推理),针对账本执行它(执行)。TAT-LLM 的误差分析给出了一个具体的预测:提取步骤将是 Beancount 智能体最常失败的地方——错误的账户类别、遗漏的交易、误读的金额——而不是算术运算。

LoRA 微调方法对于任何构建 Beancount 特定模型的人来说也很有参考价值。训练数据生成策略——采用专家注释的问答对并标注中间步骤——正是你构建账本特定推理数据集的方式。你拥有真实的账本分录;你可以自动生成(问题、提取、表达式、答案)元组。

上下文限制是最大的阻碍。生产级别的 Beancount 智能体需要对数年的分录进行推理。论文中的模型还不是那样的工具;它是短文档问答的一个强大基准,需要结合分块、检索或更长的上下文窗口才能变得实用。

接下来读什么

  • FinQA (arXiv:2109.00122, EMNLP 2021) —— TAT-LLM 评估的原始基准;阅读它可以明确“对金融数据的离散推理”的具体含义,以及在 LLM 出现之前最先进技术(SOTA)的状态。
  • TAGOP (TAT-QA 论文的一部分,arXiv:2105.07624, ACL 2021) —— 定义了 TAT-QA 任务的表格感知算子模型;了解基于规则的算子选择是什么样的,可以为基于 LLM 的推理器步骤所取代的内容提供参考。
  • AuditCopilot (arXiv:2512.02726) —— 在真实账本数据上对 LLaMA 和 Gemma 进行日记账分录测试(Journal Entry Test)异常检测基准测试;TAT-LLM 之后的自然延伸问题是,同样的微调方法是否可以转移到异常检测而非问答任务中。