MultiHiertt:跨多层级财务报表的数值推理基准测试
MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对,每份报告平均包含 3.89 个层级表;最先进的模型 F1 分数为 38%,而人类为 87%,且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。
MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对,每份报告平均包含 3.89 个层级表;最先进的模型 F1 分数为 38%,而人类为 87%,且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。
FinanceBench 针对来自真实 SEC 备案文件的 10,231 个问题评估了 16 种 AI 配置;共享向量存储 RAG 的正确率仅为 19%,即使是拥有“金标准”段落的 GPT-4-Turbo,准确率也仅达到 85% —— 这表明数值推理而非检索才是企业财务 AI 的核心瓶颈。
FinMaster (arXiv:2505.13533) 对 o3-mini、Claude 3.7 Sonnet 和 DeepSeek-V3 在 183 项金融任务中进行了基准测试——揭示了模型在金融素养方面得分 96%,但在报表生成方面暴跌至 3%,多步咨询任务由于错误传播导致准确率下降了 21 个百分点。