跳到主要内容
Financial Reporting

关于一切 Financial Reporting

12 篇文章
Generating and auditing financial reports with language models

FinDER:真实分析师查询揭示金融 RAG 中 74% 的召回率差距

FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。

FinQA:衡量 AI 对财务报告数值推理能力的基准测试

FinQA (EMNLP 2021) 基于标准普尔 500 强企业的收益报告构建了 8,281 个问答对,这些问答需要多步算术程序。发布时,神经模型的得分为 61%,而人类专家为 91%;在三步及以上的程序中,准确率骤降至 22%。其失败模式——领域常数、跨模态锚定、推理链长度——直接对应了当今 Beancount 代理所面临的挑战。