Преминете към основното съдържание

Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Atlas е продължението на Изакард и Грейв на тяхната собствена разработка Fusion-in-Decoder, разширявайки FiD в напълно съвместно обучена система, където ретривърът (retriever) и рийдърът (reader) са съвместно обучавани от самото начало. Чета го сега, защото той затваря архитектурната линия от оригиналната RAG разработка през FiD до съвместно обученото извличане – точно пространството от решения, в което всяка система за въпроси и отговори (QA) за счетоводни книги трябва да се ориентира.

Научната разработка

2026-05-27-atlas-few-shot-learning-retrieval-augmented-language-models

„Atlas: Few-shot Learning with Retrieval Augmented Language Models“ (Izacard et al., JMLR 2023) изследва дали моделите с добавено извличане могат да съперничат на LLM с масивни параметри при задачи с малко примери (few-shot), изискващи интензивни знания. Основният принос е внимателно предварително обучена система с добавено извличане, която съвместно обучава гъст ретривър, базиран на Contriever, заедно с Fusion-in-Decoder рийдър, базиран на T5. Ключовото прозрение е, че съвместното предварително обучение – а не архитектурата – е това, което стимулира производителността при работа със знания с малко примери. Системата извлича първите 20 документа, кодира всеки независимо в енкодера, след което ги обединява в cross-attention механизма на декодера, същият FiD дизайн от статията на авторите от 2021 г.

Ключови идеи

  • Atlas-11B постига 42,4% точност при Natural Questions само с 64 тренировъчни примера, превъзхождайки PaLM (540 милиарда параметъра) с около 3 пункта, като същевременно използва 50 пъти по-малко параметри.
  • В TriviaQA (64-shot), Atlas-11B достига 74,5% на филтрирания набор и 84,7% на нефилтрирания скрит тест, показвайки, че компонентата за извличане компенсира силно ограниченото наблюдение върху задачите.
  • Оценени са четири цели за обучение на ретривъра: Attention Distillation (ADist), EMDR2 (третиране на извлечените документи като латентни променливи), Perplexity Distillation (PDist) и LOOP (leave-one-out). Разликите в производителността между тях са малки; PDist се приема заради изчислителна ефективност.
  • Съвместното предварително обучение върху немаркиран текст е най-големият фактор: всички конфигурации с предварително обучение с добавено извличане силно превъзхождат базовата линия само с фина настройка с добавено извличане.
  • Индексът на документите може да се актуализира след обучение без преобучение на модела, което е архитектурно важно за динамични бази знания. Темпорално несъответстващите индекси влошават производителността забележимо.
  • При MMLU (5-shot), Atlas-11B достига 47,9%, надвишавайки отчетените 43,9% на GPT-3, въпреки приблизително 16 пъти по-малко параметри.

Какво издържа проверката на времето – и какво не

Основното твърдение – че извличането позволява производителност при задачи със знания с малко примери при малка част от броя на параметрите – се потвърждава убедително. Резултатът от 42,4% за NQ с 64 примера е поразителен, а сравнението с PaLM е справедливо, тъй като PaLM беше най-съвременният бенчмарк за мащаб по онова време.

Имам обаче три резерви. Първо, точността на извличане не е отлична дори след съвместно обучение: независими анализи показват, че Contriever пропуска поне едно основно твърдение (gold statement) в приблизително 85% от случаите и постига около 47% точност на извличане за QA. Съвместното обучение подобрява извличането спрямо несъвместно обучените базови линии, но рийдърът върши огромна работа, за да компенсира несъвършеното извличане – водещите few-shot цифри отразяват тавана на системата, а не качеството на компонентата за извличане. Второ, инфраструктурните разходи са реални: опресняването на индексните документи по време на предварителното обучение добавя приблизително 30% изчислителни разходи, а пълният индекс на Wikipedia+CommonCrawl изисква 587GB в fp16. Това е управляемо за изследователска среда, но е истинско оперативно ограничение за внедряване в производство. Трето, изтичането на данни е признато, но не и разрешено: 2,8% от въпросите в MMLU се появяват дословно в корпуса CCNet, използван за предварително обучение, което изкуствено повишава резултатите на MMLU с неизвестна стойност.

Съществува и по-фино архитектурно ограничение, което статията не засяга напълно: FiD кодира всеки извлечен пасаж независимо преди сливането, което помага за паралелизма, но означава, че енкодерът няма внимание между пасажите (cross-passage attention). Дългите вериги от разсъждения с няколко стъпки (multi-hop reasoning), които трябва да свържат информация между пасажите, трябва да извършват цялата тази работа в декодера – а при 20 извлечени пасажа, cross-attention на декодера носи тежък товар.

Защо това е важно за ИИ във финансите

За Beancount ledger QA, най-важният принос на Atlas е емпиричната демонстрация, че съвместното обучение на ретривър и рийдър се отплаща при настройки с малко примери – и неговият честен отчет за това кога не се отплаща. Един Beancount агент, който прави заявки към история на трансакциите за няколко години, е изправен пред точно същия проблем с динамичния индекс: нови записи пристигат ежедневно, а индекс, който е остарял с един месец, дава грешни отговори. Atlas показва, че индексът може да бъде горещо заменян (hot-swapped) без преобучение, което е архитектурно обнадеждаващо.

Цифрите за точността на извличане обаче са изтрезвяващи. Ако Contriever пропуска съответния запис в главната книга в 53% от опитите за извличане дори след съвместно обучение върху общ текст, агент в финансовата област, опериращ върху Beancount книги – с техните специфични за домейна имена на активи, йерархии на сметки и bean директиви – ще се нуждае или от адаптивно обучение на ретривъра за домейна, или от извличане, допълнено от методи за структурирани заявки (точно съвпадение на сметки, филтриране по дата). Самото извличане в стил RAG, дори съвместно обучено, няма да бъде достатъчно за високоточни операции с главни книги.

Сравнението с PaLM също изяснява архитектурния компромис: извличането ви позволява да компресирате знания в по-малко параметри, намалявайки разходите за инференция. За продукт като Beancount.io, където цената на инференцията има значение в голям мащаб, философията на дизайна на Atlas е привлекателна. Но цената на индекса от 587GB прехвърля тежестта върху инфраструктурата за съхранение и извличане – различен вид оперативно ограничение, което не се появява в цифрите на бенчмарковете.

Какво да прочетете след това

  • REALM: Retrieval-Augmented Language Model Pre-Training (Guu et al., arXiv:2002.08909, ICML 2020) — по-ранната рамка за съвместно предварително обучение на ретривър и рийдър, която Atlas разширява; от съществено значение за разбирането на това какво Atlas действително подобрява и какво оставя непроменено.
  • RA-DIT: Retrieval-Augmented Dual Instruction Tuning (Lin et al., arXiv:2310.01352, ICLR 2024) — постига конкурентна производителност с Atlas, използвайки настройка по инструкции, вместо съвместно предварително обучение от нулата; предполага, че разликата между съвместното и независимото обучение може да бъде затворена без инфраструктурни разходи.
  • RETRO: Improving Language Models by Retrieving from Trillions of Tokens (Borgeaud et al., arXiv:2112.04426, ICML 2022) — подходът на DeepMind за извличане по време на предварително обучение в различен мащаб; допълва картината на подходите за предварително обучение с добавено извличане преди вземането на архитектурни избори за QA върху главни книги.