40 篇博文含有标签「Data Science」

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V：金融领域带视觉引用的多模态 RAG

FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试，涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%，且多模态检索的表现优于纯文本检索近 50 个百分点。

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench：为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

WildToolBench (ICLR 2026) 评估了 57 个 LLM 在源自真实用户行为的 1,024 个任务上的表现——没有模型的会话准确率超过 15%，其中组合编排、隐藏意图和指令转换是三个最显著的失败模式。

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM 置信度与校准：研究现状深度综述

一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明，GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC，仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench：评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合，在真实金融任务中对 LLM 智能体进行基准测试。研究发现，GPT-4o 保守的 22.7% 调用率带来的回答质量（CSS 0.670）高于 Qwen3-8B 激进的 87.1% 工具调用率（TIR），而所有测试模型的意图不匹配率均超过 50%。

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval：金融领域全方位 RAG 评估基准

OmniEval (EMNLP 2025) 通过 1.14 万个自动生成的测试用例，在 5 种任务类型 × 16 个金融主题上对 RAG 系统进行了基准测试。表现最好的系统数值准确度仅为 36%——这有力地证明了在写入结构化金融账本之前，RAG 流水线需要验证层。

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

LLM 异常检测综述 (NAACL 2025)：强大的分类体系，缺失的表格数据覆盖

对 Xu 和 Ding 在 NAACL 2025 上发表的关于基于 LLM 的异常和 OOD 检测综述的评注：虽然检测与生成的分类体系站得住脚，但表格数据覆盖的几乎完全缺失意味着金融 AI 从业者必须自行综合来自视觉模型的见解。

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

发现于中：通过校准位置注意力偏差提升长上下文 RAG

一种无需训练的推理时校准方法，通过从大语言模型注意力权重中减去位置偏差，在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE：大语言模型在跨周期和跨实体财务分析中的失败表现

Fin-RATE 对 17 个大语言模型进行了基准测试，涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%，而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER：真实分析师查询揭示金融 RAG 中 74% 的召回率差距

FinDER 针对标普 500 指数 10-K 文件，使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试；E5-Mistral 仅实现了 25.95% 的上下文召回率，而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入，才是修复金融 AI 流水线的首要方案。