跳到主要内容

Bean Labs Research Log

Latest articles

OpenHands:AI 软件代理开放平台及其对财务自动化的意义

OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台,其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试,它确立了 AI 代理如今能够可靠完成的任务范围,以及为什么首批富有成效的财务部署应当是严格限制范围的,而非完全自主的。

FinDER:真实分析师查询揭示金融 RAG 中 74% 的召回率差距

FinDER 针对标普 500 指数 10-K 文件,使用 5,703 个真实的对冲基金分析师查询对 RAG 进行基准测试;E5-Mistral 仅实现了 25.95% 的上下文召回率,而充满缩写的查询导致精确率下降了 8.2 个百分点——这证明了查询归一化而非更好的嵌入,才是修复金融 AI 流水线的首要方案。

迷失在中间:大语言模型中的位置偏差及其对金融 AI 的影响

Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。