跳到主要内容
Technology

关于一切 Technology

8 篇文章
Technology research and software engineering topics relevant to financial AI systems

迷失在中间:大语言模型中的位置偏差及其对金融 AI 的影响

Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。

在等量思考 Token 预算下,单智能体大模型在多跳推理表现上优于多智能体系统

2026 年斯坦福大学的一篇预印本论文通过统一五种多智能体架构的思考 Token 预算发现,在多跳推理任务中,单智能体大模型表现与多智能体系统相当甚至更优。该研究基于数据处理不等式提供了理论依据,并探讨了其对金融 AI 智能体设计的启示。

Self-RAG: 大语言模型的自适应检索与自我评判

Self-RAG (ICLR 2024 Oral) 训练语言模型决定何时进行检索,并使用四个反思令牌对其自身结果进行评分——在 PopQA 上达到 55.8%,在传记 FactScore 上达到 80.2,同时在五个基准测试中表现优于 ChatGPT。本文分析涵盖了其机制、消融实验结果、可复现性局限,以及对基于 Beancount 账本的金融 AI 智能体的启示。

AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示

AgentBench(Liu 等人,ICLR 2024)在 8 个交互式环境中对 27 个大语言模型进行了基准测试 —— GPT-4 的综合得分为 4.01,而表现最好的开源模型仅为 0.96。三种主要的失败模式(知识图谱失败中 67.9% 为超出任务限制、数据库失败中 53.3% 为格式错误以及无效操作)直接对应了在真实账本上部署 Beancount 回写代理的风险。