3 篇博文含有标签「Financial Statements」

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt：跨多层级财务报表的数值推理基准测试

MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对，每份报告平均包含 3.89 个层级表；最先进的模型 F1 分数为 38%，而人类为 87%，且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench：为什么基于向量存储的 RAG 在真实财务文档上表现不佳

FinanceBench 针对来自真实 SEC 备案文件的 10,231 个问题评估了 16 种 AI 配置；共享向量存储 RAG 的正确率仅为 19%，即使是拥有“金标准”段落的 GPT-4-Turbo，准确率也仅达到 85% —— 这表明数值推理而非检索才是企业财务 AI 的核心瓶颈。

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

FinMaster 基准测试：为何大语言模型在金融素养上得分 96%，但在报表生成上仅为 3%

FinMaster (arXiv:2505.13533) 对 o3-mini、Claude 3.7 Sonnet 和 DeepSeek-V3 在 183 项金融任务中进行了基准测试——揭示了模型在金融素养方面得分 96%，但在报表生成方面暴跌至 3%，多步咨询任务由于错误传播导致准确率下降了 21 个百分点。

关于一切 Financial Statements

MultiHiertt：跨多层级财务报表的数值推理基准测试

FinanceBench：为什么基于向量存储的 RAG 在真实财务文档上表现不佳

FinMaster 基准测试：为何大语言模型在金融素养上得分 96%，但在报表生成上仅为 3%

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规