跳到主要内容
Finance

关于一切 Finance

35 篇文章
Financial research, analysis, and domain knowledge for accounting AI

FinDER:真实分析师查询揭示金融 RAG 中 74% 的召回率差距

FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。

迷失在中间:大语言模型中的位置偏差及其对金融 AI 的影响

Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。

InvestorBench:金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。