发现于中:通过校准位置注意力偏差提升长上下文 RAG
一种无需训练的推理时校准方法,通过从大语言模型注意力权重中减去位置偏差,在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。
一种无需训练的推理时校准方法,通过从大语言模型注意力权重中减去位置偏差,在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。
ReDAct 默认运行小型模型,仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时,实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。
OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台,其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试,它确立了 AI 代理如今能够可靠完成的任务范围,以及为什么首批富有成效的财务部署应当是严格限制范围的,而非完全自主的。
Fin-RATE 对 17 个大语言模型进行了基准测试,涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%,而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。
FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。
Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。
AD-LLM 在五个 NLP 数据集上针对三种异常检测角色(零样本检测器、数据增强引擎和模型选择顾问)对 GPT-4o 和 Llama 3.1 8B 进行了基准测试;GPT-4o 的零样本 AUROC 达到了 0.93–0.99,但基于 LLM 的模型选择仍然不可靠,这对金融审计 AI 具有直接影响。
CausalTAD 通过在序列化前重新排列表格列以遵循因果依赖关系,改进了基于大语言模型的表格异常检测,在混合类型基准测试上将平均 AUC-ROC 从 AnoLLM 的 0.803 提升至 0.834——这对于检测结构化账本数据中的异常具有直接意义。
AnoLLM (ICLR 2025) 将表格式异常检测重新表述为 LLM 密度估计 —— 在正常行上进行微调,并通过负对数似然进行评分。它在混合类型欺诈数据集上优于传统方法,但在纯数值数据上没有优势,这对检测 Beancount 账本分录中的异常具有实际意义。
LLMFinLiteracy 基准测试发现,五 个约 7B 参数的权重开放模型生成完全正确的 Beancount 交易的成功率仅为 2.3%。失败原因集中在会计推理而非语法上,这表明“编译器在环”反馈是构建可靠回写代理的关键缺失环节。