Fin-RATE:大语言模型在跨周期和跨实体财务分析中的失败表现
· 阅读需 8 分钟
金融大语言模型(LLM)基准测试的发展轨迹正在不断扩大范围,Fin-RATE 是目前最清晰的例子,展示了当我们要模型像真实分析师那样工作时会发生什么:不仅要在单一文件中追踪公司,还要跨越多个周期并与行业同行进行对比。
论文概览
Fin-RATE 由耶鲁大学及其合作机构的 Yidong Jiang、Junrong Chen 及其同事于 2026 年 2 月发布。该基准测试构建自 2020 年至 2025 年间 43 家公司和 36 个行业的 2,472 份 SEC 监管文件。该基准将 7,500 对专家精选的问答组织成三种任务类型,模拟了专业分析师的工作流程:DR-QA(单一文件内的细节与推理)、EC-QA(针对共同话题的两家公司的跨实体比较)以及 LT-QA(同一公司跨报告期的纵向追踪)。每种任务类型包含 2,500 个问题。评估涵盖了 17 个大语言模型——包括 GPT-4.1 和 GPT-5 等闭源模型,DeepSeek-V3 和 Llama-3.3-70B 等开源通用模型,以及 Fin-R1、Fino1-14B、FinanceConnect-13B 和 TouchstoneGPT-7B 等金融专业模型。评分采用统一的 LLM-as-Judge 框架,由三个独立裁判(GPT-5、DeepSeek-V3.2、Qwen3-235B)根据准确性及五个分析维度对每个回答进行评级。
核心观点
- 性能随任务复杂度增加而崩溃:在 17 个模型的平均表现中,从单文档 DR-QA 到纵向 LT-QA 准确率下降了 18.60%,从 DR-QA 到跨实体 EC-QA 下降了 14.35%。
- 带有网页搜索功能的 GPT-5 表现最佳,但其在所有三种任务类型中的峰值准确率仅为 43–44%——对于一个旨在模拟真实分析师工作流的基准测试来说,这一表现不尽如人意。
- 金融专业推理模型 Fin-R1 在 DR-QA 上达到了 57.48%,但在 EC-QA 上崩溃至 3.32%——54 个点的跌幅远超任何通用模型的退化程度。
- 在 RAG(检索增强生成)设置下,所有模型的表现都远低于 27%,而黄金上下文(gold-context)下的表现高达 57.48%;这表明检索流程而非 LLM 本身才是核心瓶颈。
- 论文引入了涵盖四个类别的 13 种错误分类学:幻觉与矛盾、金融特定的数值和语义错误、查询/上下文理解错误以及检索层面的失败。在 RAG 模式下的 EC-QA 任务中,“证据缺失”占错误的 75.44%。
- 金融专业模型在复杂任务中表现出比通用模型系统性更高的幻觉率,尽管它们在金融术语的使用上表现更好。