跳到主要内容
Data Science

关于一切 Data Science

40 篇文章
Data science methods applied to financial datasets and accounting workflows

FinToolBench:评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合,在真实金融任务中对 LLM 智能体进行基准测试。研究发现,GPT-4o 保守的 22.7% 调用率带来的回答质量(CSS 0.670)高于 Qwen3-8B 激进的 87.1% 工具调用率(TIR),而所有测试模型的意图不匹配率均超过 50%。

FinDER:真实分析师查询揭示金融 RAG 中 74% 的召回率差距

FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。

迷失在中间:大语言模型中的位置偏差及其对金融 AI 的影响

Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。