12 篇博文含有标签「Financial Reporting」

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V：金融领域带视觉引用的多模态 RAG

FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试，涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%，且多模态检索的表现优于纯文本检索近 50 个百分点。

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE：大语言模型在跨周期和跨实体财务分析中的失败表现

Fin-RATE 对 17 个大语言模型进行了基准测试，涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%，而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER：真实分析师查询揭示金融 RAG 中 74% 的召回率差距

FinDER 针对标普 500 指数 10-K 文件，使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试；E5-Mistral 仅实现了 25.95% 的上下文召回率，而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入，才是修复金融 AI 流水线的首要方案。

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA：基于完整 SEC 申报文件的长文本财务推理

DocFinQA 将 FinQA 精选的 700 字段落替换为完整的 123,000 字 SEC 申报文件，使上下文长度增加了 175 倍，这导致 GPT-4 在长文档上的准确率几乎减半。检索流水线在 HR@3 时有 45% 的概率无法找到正确的切片 —— 而长文本模型并不能替代检索。

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing：大语言模型在真实 SEC XBRL 审计任务中得分低于 14%

FinAuditing 在 1,102 个真实 SEC XBRL 申报实例上对 13 个大语言模型进行了零样本测试；财务数学验证的最高分仅为 13.86%，概念检索的最高分为 12.42% —— 这些结果直接限制了在没有外部工具的情况下，可以信任 AI 会计工具自动执行的任务范围。

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM：针对金融表格和文本离散推理进行微调的 LLaMA 2

TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调，在 FinQA 上实现了 64.60% 的精确匹配率（EM）——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤，从而消除了算术错误。

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt：跨多层级财务报表的数值推理基准测试

MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对，每份报告平均包含 3.89 个层级表；最先进的模型 F1 分数为 38%，而人类为 87%，且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA：多轮财务问答以及模型与人类专家之间 21 个百分点的差距

ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话，研究发现性能最佳的微调模型实现了 68.9% 的执行准确率，而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中，准确率降至 52.4%。

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA：针对财务年报推理的混合表格-文本问答基准

TAT-QA 是一个包含 16,552 个问题的基准测试，涵盖了财务报表中混合表格与文本的语境。该研究证明证据定位（而非算术）是财务 AI 的核心瓶颈；到 2024 年，微调后的 7B 参数量 LLM 已达到 83% 的 F1 分数，基本缩小了与 91% 人类上限的差距。

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA：衡量 AI 对财务报告数值推理能力的基准测试

FinQA (EMNLP 2021) 基于标准普尔 500 强企业的收益报告构建了 8,281 个问答对，这些问答需要多步算术程序。发布时，神经模型的得分为 61%，而人类专家为 91%；在三步及以上的程序中，准确率骤降至 22%。其失败模式——领域常数、跨模态锚定、推理链长度——直接对应了当今 Beancount 代理所面临的挑战。

关于一切 Financial Reporting