跳到主要内容

DocFinQA:基于完整 SEC 申报文件的长文本财务推理

· 阅读需 6 分钟
Mike Thrift
Mike Thrift
Marketing Manager

DocFinQA 是一篇 2024 年 ACL 论文,它采用了现有的 FinQA 数据集,并将每个问题与其所属的完整 SEC 申报文件重新匹配 —— 将平均上下文从不足 700 字扩展到 123,000 字。我阅读这篇论文是因为它直接测试了每个生产环境中的 Beancount 代理都会面临的场景:不是整洁的提取段落,而是整个杂乱的文档。对于任何计划在多年账目上部署长文本模型的人来说,结果都是发人深省的。

论文简介

DocFinQA: A Long-Context Financial Reasoning Dataset — 作者为 Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering 和 Chris Tanner (ACL 2024, 短篇论文) — 从 FinQA 中提取了 8,281 个问答对,并将其中 7,621 个与其原始所属的完整 SEC 年度报告进行了关联。结果产生了 1,236 份独特的申报文件,分布在 5,798 个训练样本、791 个开发样本和 1,032 个测试样本中,平均上下文从大约 700 字激增 175 倍至 123,453 字。

2026-06-20-docfinqa-long-context-financial-reasoning-dataset

问题集保持不变 —— 它们依然是那些需要 Python 程序来回答的多步数值推理问题。改变的是,模型现在接收的是完整的申报文件,而不是专家精选的 700 字段落。研究比较了两类方法:经典的检索流水线(切分、排序、回答)和新兴的尝试端到端处理完整文档的长文本大语言模型(LLM)。

核心观点

  • 测试集上表现最好的检索流水线准确率:GPT-3.5 为 42.64%。开源模型远在其后:Mistral/7B 为 24.97%,CodeLlama/13B 为 21.01%,MPT/30B 为 18.07%。
  • 表现最好的检索编码器 —— 经过微调的 ColBERT —— 实现了 HR@1 = 0.35 和 HR@3 = 0.55,这意味着即使检索三个段落,正确的切片在模型上下文中缺失的概率仍接近一半。
  • 长文本 GPT-4(基于 400 个问题的子样本评估):在较短文档(≤100K token)上的准确率为 46.5%,而在最长文档(>100K token)上使用“先摘要后回答”策略时,准确率为 23.0%。GPT-4 在长文档上的错误率几乎是短文档的两倍。
  • 针对财务领域的 PDF 解析(Kensho Extract)表现明显优于通用的 HTML 解析(BeautifulSoup),特别是在表格保留方面 —— 这对于任何构建在 SEC 申报文件之上的流水线来说都是一个实用的发现。
  • 相当比例的相关切片位于文档位置 250 之后,这意味着基于截断的策略在模型看到之前就默默地丢弃了正确的证据。

哪些结论经得起推敲,哪些不能

核心实证贡献是扎实的:该数据集是 FinQA 的忠实扩展,具有明确的方法论(使用 4-gram 相似度评分识别黄金切片,2,750 字符切片,20% 重叠),并且性能随文档长度严重下降的发现,在检索和长文本方法中都是一致的。GPT-4 在长文档与短文档上的错误率接近翻倍,这一结果令人震惊且难以解释。

论文没有完全探讨 2024 年这一波新型长文本模型。长文本评估仅覆盖了 400 个样本,受限于成本,且未测试 Gemini 1.5 Pro(1M token 窗口)或 Claude 3 (200K)。切分超参数虽然合理但未经过系统的消融测试,且“先摘要后回答”的多轮调用策略可能不是目前最优的 —— IRCoT 的交替检索和 StructRAG 的结构化综合都表明,对于长文档中的多跳证据聚合,存在更好的方法。

微调后的 ColBERT 达到 HR@3 = 0.55 揭示了更深层次的问题:长篇财务文档的检索本身仍未解决。即使拥有完美的生成模型,由于检索不到正确的段落,近一半的查询也会得到错误的答案。论文指出了这一约束,但未能量化当检索被设为“先验知识”(oracle)时准确率能恢复多少。

为什么这对财务 AI 至关重要

多年的 Beancount 账本平均不会达到 123K 字,但带有详细注释的十年交易记录很容易达到这个规模,而处理完整年度报告的财务代理正面临这种情形。从“我们精选了正确的 700 字”(FinQA)到“这是完整的 10-Q 文件”(DocFinQA)的转变,代表了玩具基准测试与生产现实之间的差距。DocFinQA 让这种差距变得可以衡量。

GPT-4 准确率在长短文档之间近 50% 的下降反驳了单纯“增加上下文窗口”的做法。检索仍然必要,但在 HR@3 时的可靠性仅为 55%。对于一个需要定位埋藏在一年之久的账目附注中的折旧表的 Beancount 自动记账代理来说,在提交分录之前,这两种架构都无法提供所需的可靠性。对这篇论文最坦诚的读后感是:领域真正需要的是更好的检索、更好的证据聚合以及对隐性失败的显式评估,而不是更大的上下文窗口。

延伸阅读

  • "Lost in the Middle: How Language Models Use Long Contexts" — Liu 等人,2023,arXiv:2307.03172。为 DocFinQA 测量的位置准确率崩溃提供了机制解释,包括现在已成为经典的 U 型性能曲线。
  • FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop。一个 2025 年的后续基准,包含 5,703 个查询-证据-答案三元组,围绕真实的专业财务搜索查询设计,包括标准检索器会遗漏的缩写和首字母缩略词。
  • Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294。一个新的 SEC 申报文件基准,在单文档问答之外增加了时间跨度追踪任务,更接近 Beancount 审计代理实际需要的场景。