FinAuditing:大语言模型在真实 SEC XBRL 审计任务中得分低于 14%
FinAuditing 将大语言模型与真实 SEC XBRL 申报文件的结构化复杂性进行基准对比,而非财务自然语言处理 (NLP) 排行榜中常见的润色过的问答对。我阅读这篇论文是因为 Bean Labs 的审计议程一直绕不开一个现有基准测试无法回答的问题:模型能否在内存中保留整个结构化申报文件并验证其内部一致性?
论文介绍
Wang 等人介绍了 FinAuditing,这是一个由来自 SEC EDGAR 上 218 份 XBRL 申报文件的 1,102 个实例组成的基准测试,涵盖了 XBRL 美国数据质量委员会 (DQC) 编录的错误类型。XBRL 是美国证券交易委员会 (SEC) 要求所有上市公司申报采用的机器可读格式;每份申报文件都包含一个实例分析文档(报告的数字)、一个分类标准架构(有效的会计概念)和四个链接库 —— 计算、列报、定义和标签 —— 它们规定了概念之间如何相互关联。该基准测 试将三个审计子任务进行了操作化:财务语义匹配 (FinSM,为报告的事实检索正确的分类概念)、财务关系提取 (FinRE,对两个分类节点之间的关系进行分类) 以及财务数学推理 (FinMR,验证报告的数字是否符合分类标准定义的计算规则)。实例平均包含 33,848 个 token —— 处于或超过了许多开源模型的有效上下文限制 —— 且所有 13 个模型都接受了零样本 (zero-shot) 测试。
关键观点
- FinSM 本质上是分类标准检索:给定申报文件中的一个事实,寻找正确的 US-GAAP(美国通用会计准则)概念。DeepSeek-V3 以 12.42% 的 Hit Rate@20 位居榜首 —— 即在 20 个候选选项中进行选择时,正确率不到八分之一。GPT-4o 的得分为 9.09%。
- FinRE(对链接库关系进行分类)是最简单的任务:GPT-4o 达到了 91.82% 的准确率和 90.09 的 Macro F1。但 Qwen3-32B 和 Fino1-14B —— 这两个都标榜具备财务能力的模型 —— 得分为 0.00%,显然在 CombinationErr 关系类型上崩溃了。
- FinMR 非常残酷:Fino1-14B 以 13.86% 的准确率领先;大多数模型的分数都处于个位数。错误分析显示,70–83% 的失败归因于多步计算规则中的算术错误,结构格式错误占 9–71%,具体取决于模型。
- 源数据来自真实申报文件(2020–2024 年)中的 4,545 条 DQC 错误消息 —— 而非合成的对抗性示例。该基准测试选择了 9 种最常见的错误类型,涵盖了 60.33% 的现实世界 DQC 违规行为。
- 领域专用模型(Fino1-14B, FinR1)并未系统性地击败通用大模型;Fino1-14B 仅在 FinMR 上领先,即便如此,其 13.86% 的得分也仅略高 于噪音水平。
哪些观点站得住脚,哪些站不住
这一基准测试的价值正是在于它跳出了问答对的模式:成功需要理解链接库关系,而不仅仅是将问题与文本段落匹配。将实例构建基于 DQC 违规行为使其具备可重复性,并与真实的审计过程直接挂钩。
话虽如此,我持保留意见。FinRE 的结果令人费解:GPT-4o 达到 91.82%,而具备领域能力的模型却崩溃至 0.00%,这种差异几乎肯定反映了提示词敏感性和输出格式不匹配,而非真实的推理能力。论文在没有消融提示格式或提供少量样本 (few-shot) 基准的情况下对所有模型进行了零样本测试,这使得无法将 0.00% 的得分归因于智能水平而非解析失败。FinMR 使用的“大模型作为裁判”(LLM-as-judge) 框架引入了另一层评估噪音。
核心主张 —— “在分层多文档结构上准确率下降 60–90%” —— 也需要更清晰的参照。目前尚不清楚这是与人类表现、相同任务的单文档版本,还是扁平化(非分层)变体进行的对比。方向是正确的,但如果没有那个基准,下降幅度就很难解读。
为什么这对财务 AI 很重要
Beancount 文件虽然不是 XBRL,但它们具有关键的结构属性:类似于分类标准架构的分层账户命名空间、类似于计算链 接库的必须平衡的复式记账约束,以及类似于概念与实例匹配的引用规范类别的类型化条目。FinMR 的失败模式 —— 模型在多步计算规则中犯算术错误 —— 正是 Beancount 余额验证所关注的关键点。如果 GPT-4o 无法可靠地验证 XBRL 申报文件中 US-GAAP 加法树的求和是否正确,那么在不将算术运算卸载到外部工具(如 PAL 风格)的情况下,几乎可以肯定无法信任它去验证账本中复杂的账户层级。
FinSM 的数据对于任何将用户输入的账户名称或交易描述映射到规范会计科目的 Beancount 代理来说都是一个直接的警告。即使是表现最好的模型,在 Rank 20 时检索到正确概念的概率也低于 13%。在没有专门的检索器或针对目标分类标准进行微调的情况下,基于排名的检索离投入生产还差得很远。
领域专用模型的“无果而终”具有启发性:对于此类结构化推理任务,原始规模和结构化提示仍然比财务预训练更能决定结果。
延伸阅读
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) —— 分层 XBRL 链接库结构正是微软 GraphRAG 所针对的那种“文档之上的图”结构;作为对 FinAuditing 检索失败的一种架构性响应,值得一读。
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) —— 包含重叠作者,专注于将财务事实映射到分类概念(审计之前的上游任务);与 FinAuditing 的范围相辅相成。
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) —— 如果模型在零样本情况下无法可靠地验证计算,答案可 能是覆盖在代理操作之上的形式化验证工具,而非更好的提示词。
