跳到主要内容

FinBen:在 36 个金融任务中对大语言模型进行基准测试 —— 对会计 AI 的启示

· 阅读需 6 分钟
Tian Pan
Research Engineer

FinBen 在 NeurIPS 2024 上亮相,作为迄今为止对大语言模型在金融任务上最全面的公开评估。我一直想仔细研读它,因为在设计任何基于 Beancount 账本的自主智能体之前,我需要对前沿模型在金融推理任务上的实际表现有一个客观的认识,而这些任务正是此类智能体需要执行的。

论文

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie 与其他 33 位共同作者提出了 FinBen,这是一个涵盖 24 个金融任务、36 个数据集的开源基准,分为七个维度:信息提取、文本分析、问答、文本 generation、风险管理、预测和决策。他们评估了 15 个具有代表性的模型 —— 包括 GPT-4、ChatGPT、Gemini 以及几个经过指令微调的开源模型 —— 并引入了三个用于摘要、问答和股票交易评估的新数据集。

核心动机是之前的金融基准(如 FLUE 和 FLARE)各自只捕获了金融 NLP 的一部分,远未涵盖完整的流水线。FinBen 是首次尝试在同一基准中跨越整个技术栈,并被 NeurIPS 2024 数据集与基准轨道(Datasets and Benchmarks Track)接收,这赋予了其合理的学术审视标准。

核心观点

  • 在命名实体识别(NER)方面,GPT-4 在 FINER-ORD 数据集上获得了 0.83 的实体 F1 分数 —— 表现强劲,但这是基准测试中最简单的类别。
  • 在 FinQA(金融报告上的数值推理)方面,GPT-4 达到了 0.63 的精确匹配率(Exact Match);在对话变体 ConvFinQA 上,得分为 0.76。这些分数虽然可观,但还远未达到解决的程度。
  • 经过领域微调的 FinMA 7B 在 FPB 情感分析上达到了 0.88 的 F1 分数 —— 在这一细分任务上优于 GPT-4,证实了微调在定义明确的分类任务中仍然具有优势。
  • 股票走势预测是最明显的失败模式:即使是 GPT-4 的准确率也只有 0.54 左右 —— 仅略高于随机。作者称这是“大语言模型处理预测能力方面的显著缺陷”。
  • GPT-4 在交易任务中获得了 1.51 的夏普比率(Sharpe Ratio),而 Gemini 为 1.03;在评估期间的累计收益率为 28.19%,而同期买入并持有策略的收益率为 -4.00% —— 但这是一次较短的回测,需考虑到所有常规的限制因素。
  • 所有模型在抽取式摘要上均得分为零,GPT-4 在关系提取上的 F1 分数仅为 0.01。一旦超出文本分类和开放式生成的舒适区,模型能力就会急剧下降。

哪些结论站得住脚 —— 哪些不能

该基准作为一种调查工具确实非常有用。其任务范围比以往任何时候都要广,而且开源发布意味着其他人可以在评估基础设施的基础上进行构建,而不必从零开始。

尽管如此,我对于 FinBen 实际能说明的问题存在疑虑。交易评估期过短且特定于市场;在几个月内计算出的美股夏普比率并不是一个稳定的信号。抽取式摘要的零分告诉我们某些环节出错了,但论文没有诊断出 原因 —— 是提示词格式问题、分词伪影,还是真正的推理失败?对于试图修复这一问题的人来说,这种区别至关重要。

此外,该基准几乎完全以英语和美国市场为中心。这不仅仅是一个泛化局限;这意味着这些结果对于德国或中国金融文档的表现,或者对于具有不同会计准则的司法管辖区的表现,几乎没有参考价值。对于像 Beancount.io 这样服务于全球用户的项目来说,这是一个显著的空白。

指令微调模型的情况也比初看上去更复杂。微调对情感分析有帮助(FinMA 7B 达到 0.88),但“对于问答等复杂任务,微调仅能提供微小的改进”。论文将其作为一项发现报告,但未提供机制层面的解释。是因为基础模型推理能力的灾难性遗忘吗?还是微调数据的分布太窄?仅凭基准测试的表面数据无法回答这些问题。

为什么这对金融 AI 至关重要

FinBen 的结果为 Bean Labs 提供了一个比以前更清晰的基准。与 Beancount 账本智能体最相关的任务 —— 结构化金融报告上的数值问答(FinQA:0.63 精确匹配)、从交易描述中提取信息(NER:0.83 F1)以及异常检测或欺诈分类(风险管理任务表现出巨大差异)—— 在这里都有体现,且没有一个被完全解决。

预测能力的崩塌(股票走势 0.54)对于我们这种较窄的使用场景反而是个定心丸:我们不需要模型来预测市场,我们要求它们进行分类、提取并写回结构化分录。这些任务的表现落在 0.63–0.83 范围内(取决于复杂度),这是一个可用的基础 —— 尽管“可用”并不等同于“无需人工审核即可用于生产”。

结构化提取与开放式推理之间的差距,也直接对应了“回写”的安全问题。如果一个模型可以可靠地提取实体(F1 0.83),但在推理其数值含义(FinQA 0.63)或生成正确的结构化输出(关系提取:0.01)方面存在困难,那么最安全的架构就是将这些步骤分开,并在步骤之间进行显式验证。

延伸阅读

  • FinMaster (arXiv:2505.13533) —— 明确地对端到端会计工作流(包括分录和对账)进行了基准测试;比 FinBen 中的任何内容都更接近 Beancount 的任务。
  • “Table Meets LLM: Can Large Language Models Understand Structured Table Data?” (arXiv:2305.13062, WSDM 2024) —— Beancount 账本本质上是结构化表格;这篇论文基准测试了任何账本读取智能体底层所需的结构化理解能力。
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) —— 这种交替推理与行动的框架是大多数回写智能体所采用的;在 FinBen 展示了推理能力的实际底线之后,了解其失败模式现在变得更加重要。