跳到主要内容

Atlas:检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

Atlas 是 Izacard 和 Grave 继 Fusion-in-Decoder 论文之后的后续研究,将 FiD 扩展为一个完全联合训练的系统,其中检索器和阅读器从零开始共同训练。我之所以读它,是因为它完成了从原始 RAG 论文到 FiD 再到联合训练检索的架构演进路径——这正是任何账本问答系统需要权衡的决策空间。

论文详解

2026-05-27-atlas-few-shot-learning-retrieval-augmented-language-models

“Atlas: Few-shot Learning with Retrieval Augmented Language Models” (Izacard et al., JMLR 2023) 探讨了检索增强模型是否能在知识密集型的少样本任务中与海量参数的 LLM 相抗衡。其核心贡献是一个经过精心预训练的检索增强系统,它联合训练了基于 Contriever 的稠密检索器和基于 T5 的 Fusion-in-Decoder 阅读器。关键洞察是,联合预训练(而非架构)才是驱动少样本知识表现的核心动力。该系统检索前 20 个文档,在编码器中独立对每个文档进行编码,然后在解码器的交叉注意力中进行融合,沿用了作者 2021 年论文中的 FiD 设计。

核心观点

  • Atlas-11B 在仅有 64 个训练样本的情况下,在 Natural Questions 上达到了 42.4% 的准确率,以 50 倍更少的参数量击败了 PaLM (540B 参数) 约 3 个百分点。
  • 在 TriviaQA (64-shot) 上,Atlas-11B 在过滤集上达到 74.5%,在未过滤的隐藏测试集上达到 84.7%,表明检索组件极大地补偿了有限的任务监督。
  • 评估了四种检索器训练目标:注意力蒸馏 (ADist)、EMDR2(将检索到的文档视为隐变量)、困惑度蒸馏 (PDist) 和 LOOP (留一法)。它们之间的性能差异较小;出于计算效率考虑采用了 PDist。
  • 在未标注文本上的联合预训练是最大的单一因素:所有检索增强预训练配置的表现都远好于仅进行检索增强微调的基准模型。
  • 文档索引可以在训练后更新而无需重新训练模型,这对于动态知识库在架构上非常重要。时间不匹配的索引会显著降低性能。
  • 在 MMLU (5-shot) 上,Atlas-11B 达到 47.9%,超过了 GPT-3 报告的 43.9%,尽管其参数量少了约 16 倍。

哪些观点成立,哪些不成立

主要观点——即检索能够以极少的参数量实现强大的少样本知识表现——得到了令人信服的验证。64 个样本实现 42.4% 的 NQ 成绩是一个惊人的结果,而且与 PaLM 的对比也是公平的,因为 PaLM 是当时最先进的模型规模基准。

但我有三点保留意见。首先,即使经过联合训练,检索准确率也不尽如人意:独立分析显示,Contriever 在大约 85% 的情况下会漏掉至少一条关键陈述,其 QA 检索准确率仅为 47% 左右。联合训练虽然比非联合基准提高了检索能力,但阅读器实际上在做大量工作以补偿不完美的检索——亮眼的少样本数据反映的是系统上限,而非检索组件的质量。其次,基础设施成本是真实存在的:在预训练期间刷新文档索引会增加约 30% 的计算开销,而完整的 Wikipedia+CommonCrawl 索引在 fp16 精度下需要 587GB。这在研究环境中尚可接受,但对于生产部署来说是真实的运维约束。第三,论文承认了数据泄露问题但未解决:2.8% 的 MMLU 问题逐字出现在用于预训练的 CCNet 语料库中,这在一定程度上夸大了 MMLU 的结果。

还有一个论文没有充分涉及的细微架构局限:FiD 在融合前独立编码每个检索到的段落,这有助于并行化,但也意味着编码器没有跨段落的注意力。需要连接多个段落信息的长链多跳推理必须完全在解码器中完成——而在检索 20 个段落时,解码器的交叉注意力承受着沉重的负载。

为什么这对金融 AI 至关重要

对于 Beancount 账本问答,Atlas 最相关的贡献是实验证明了联合检索器-阅读器训练在少样本场景下是有回报的——以及它对失效场景的诚实记录。查询多年交易历史的 Beancount 智能体正面临着动态索引问题:每天都有新条目进入,一个月前的陈旧索引会产生错误答案。Atlas 证明了索引可以热切换而无需重新训练,这在架构上是令人鼓舞的。

然而,检索准确率的数据令人冷静。如果 Contriever 即使在通用文本联合训练后,在 53% 的检索尝试中仍会漏掉相关的账本条目,那么在 Beancount 账本上运行的金融领域智能体——处理特定领域的货币名称、账户层级和 bean 指令——将需要领域自适应检索器训练,或者通过结构化查询方法(精确账户匹配、日期过滤)增强检索。仅靠 RAG 式的检索,即使是联合训练,也不足以满足高精度的账本操作需求。

与 PaLM 的对比也澄清了架构权衡:检索让你可以将知识压缩到更少的参数中,从而降低推理成本。对于像 Beancount.io 这样注重规模化推理成本的产品,Atlas 的设计理念很有吸引力。但 587GB 的索引成本将负担转移到了存储和检索基础设施上——这是一种不同于基准测试数据的运维约束。

延伸阅读

  • REALM: Retrieval-Augmented Language Model Pre-Training (Guu et al., arXiv:2002.08909, ICML 2020) —— Atlas 扩展的早期联合检索器-阅读器预训练框架;对于理解 Atlas 实际改进了什么以及保留了什么是必读的。
  • RA-DIT: Retrieval-Augmented Dual Instruction Tuning (Lin et al., arXiv:2310.01352, ICLR 2024) —— 通过指令微调而非从零开始联合预训练,实现了与 Atlas 相当的性能;这表明在没有巨大基础设施成本的情况下,联合训练与独立训练之间的差距是可以缩小的。
  • RETRO: Improving Language Models by Retrieving from Trillions of Tokens (Borgeaud et al., arXiv:2112.04426, ICML 2022) —— DeepMind 在不同规模预训练期间使用检索的方法;在为账本问答做出架构选择之前,这完善了检索增强预训练方法的图景。