Zum Hauptinhalt springen

Self-RAG: Adaptive Retrieval und Selbstkritik für LLMs

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Standard-RAG führt Abfragen jedes Mal durch, unabhängig davon, ob das Retrieval hilfreich ist oder nicht. Self-RAG von Asai et al. (ICLR 2024 Oral) stellt eine andere Frage: Was wäre, wenn das Modell selbst entscheiden könnte, wann es etwas nachschlägt, und das Ergebnis anschließend bewertet? Das stellt sich als ziemlich wichtig heraus, und der Mechanismus ist sauber genug, um ihn genauer zu untersuchen.

Das Paper

2026-05-09-self-rag-learning-to-retrieve-generate-critique-self-reflection

Der Hauptkritikpunkt an herkömmlichem Retrieval-Augmented Generation ist seine Wahllosigkeit: Eine feste Anzahl von Passagen wird für jede Eingabe abgerufen, vorangestellt und generiert. Das funktioniert gut genug, wenn das Retrieval hilft, schadet aber aktiv, wenn die Passagen irrelevant sind oder das Modell die Antwort bereits in seinen Gewichten gespeichert hat. Das Paper stellt Self-Reflective Retrieval-Augmented Generation (Self-RAG) vor, verfasst von Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil und Hannaneh Hajishirzi (University of Washington und IBM Research).

Der entscheidende Mechanismus ist ein Satz von vier speziellen Reflection-Tokens, die während des Trainings in das Vokabular des Modells integriert wurden. Retrieve entscheidet, ob der Retriever überhaupt aufgerufen wird. IsRel (Relevanz) bewertet, ob eine abgerufene Passage tatsächlich nützliche Informationen für die Anfrage enthält. IsSup (Support) prüft, ob die generierte Behauptung vollständig, teilweise oder gar nicht durch die Passage gestützt wird. IsUse (Nützlichkeit) bewertet die Gesamtqualität der Antwort auf einer Skala von 1 bis 5. Das Modell lernt, diese Tokens inline mit seiner normalen Ausgabe auszugeben – es kritisiert also sein eigenes Retrieval und seine Generierung in einem Vorwärtsdurchlauf.

Das Training erfolgt zweistufig: Zuerst wird ein Critic-Modell (LLaMA 2, 7B fine-tuned) auf etwa 4.000–20.000 markierten Beispielen pro Token-Typ trainiert, wobei eine Übereinstimmung von über 90 % mit GPT-4-Vorhersagen erreicht wird. Dieser Critic annotiert dann offline einen Korpus von 150.000 Instruction-Output-Beispielen, und der Generator wird auf diesen annotierten Daten trainiert, wobei Reflection-Tokens wie gewöhnliches Vokabular behandelt werden. Es ist kein Reinforcement Learning erforderlich.

Kernideen

  • Die vier Reflection-Tokens (Retrieve, IsRel, IsSup, IsUse) ermöglichen dem Modell einen strukturierten internen Dialog darüber, ob Beweise vertrauenswürdig sind – nicht nur eine binäre Entscheidung über das Abrufen.
  • Self-RAG 13B erreicht 55,8 % bei PopQA, 69,3 % bei TriviaQA, 74,5 % bei PubHealth, 73,1 % bei ARC-Challenge und einen Biography FactScore von 80,2 – und übertrifft damit ChatGPT und Retrieval-augmented Llama2-chat in jedem dieser Bereiche.
  • Ablationen bei PopQA zeigen, dass das Entfernen des Retrievals zur Testzeit 20,8 Prozentpunkte kostet, während das Entfernen nur des Critics lediglich 2,9 PP kostet – der Retriever ist die tragende Säule; die Kritik fügt eine Kalibrierung hinzu.
  • Während der Inferenz können die Gewichte der Kritik-Tokens angepasst werden, um die Zitationspräzision gegen die Sprachgewandtheit abzuwägen, ohne dass ein erneutes Training erforderlich ist. Dies macht das Verhalten des Modells für verschiedene nachgelagerte Anwendungen konfigurierbar.
  • Das ICLR 2024 Programmkomitee verlieh Self-RAG den Oral-Status (Top 1 %), was die echte fachliche Anerkennung des technischen Beitrags widerspiegelt.

Was Bestand hat — und was nicht

Die Ablationsergebnisse sind überzeugend. Die Lücke zwischen "immer abrufen" und "nie abrufen" ist groß (20,8 PP); das Modell hat eindeutig gelernt, nützliches Retrieval von Rauschen zu unterscheiden. Die Tokens IsRel und IsSup bieten einen messbaren Mehrwert gegenüber rein adaptivem Retrieval. Das ist ein bedeutendes Ergebnis, nicht nur eine Umformulierung.

Weniger überzeugt bin ich von dem Anspruch auf Generalisierung. Alle fünf Evaluierungsaufgaben (PopQA, TriviaQA, PubHealth, ARC-Challenge, ASQA) sind Kurzform- oder Multiple-Choice-Fragen – genau das Szenario, in dem eine einzelne abgerufene Passage ein entscheidendes Signal liefern kann. Langform-Generierung über Multi-Dokument-Kontexte hinweg, wo Finanzaufgaben angesiedelt sind, wird weniger genau untersucht. Der Biography FactScore (80,2) ist der am nächsten kommende Proxy, aber Biografien sind im Vergleich zu einem weitläufigen, mehrjährigen Ausgaben-Ledger relativ gut strukturiert.

Es gibt auch einen Haken bei der Reproduzierbarkeit: Die Trainingslabels des Critic-Modells stammen von GPT-4. Damit hängt die Label-Qualität von einem proprietären System ab und verursacht nicht angegebene API-Kosten. CRAG (arXiv:2401.15884) zeigte später, dass ein 0,77B-Retrieval-Evaluator – viel leichter als der 7B-Critic von Self-RAG – die Retrieval-Qualität korrigieren und 19,0 PP gegenüber Standard-RAG bei PopQA gewinnen konnte, was darauf hindeutet, dass der schwere, feinabgestimmte Critic möglicherweise nicht notwendig ist. Das ist eine ernsthafte Infragestellung des Designs, auch wenn die Kernerkenntnis über selektives Retrieval bestehen bleibt.

Schließlich spielt die Vergleichsbasis eine Rolle. ChatGPT (wahrscheinlich GPT-3.5-turbo, Ende 2023) und Llama2-chat zu schlagen, ist eine angemessene Hürde für ein offenes 13B-Modell, aber Frontier-Modelle haben sich seitdem erheblich weiterentwickelt. Ob das adaptive Retrieval von Self-RAG ein gut gepromptetes GPT-4o mit einem einfachen "Immer-Abrufen"-Setup bei denselben Benchmarks schlagen würde, wird nicht thematisiert.

Warum das für Finanz-KI wichtig ist

Finanz-Agenten auf Beancount-Ledgern stehen genau vor dem Problem der Retrieval-Diskriminierung, das Self-RAG adressiert. Wenn ein Benutzer fragt: "Wie hoch ist mein Nettoeinkommen in diesem Monat?", kann der Agent dies aus seinem geladenen Kontext berechnen – Retrieval könnte hier nur Rauschen hinzufügen. Wenn derselbe Benutzer fragt: "Habe ich die Rechnung des Auftragnehmers für Q3 erfasst?", muss der Agent potenziell Jahre an Einträgen scannen. "Immer abrufen" verschwendet Kontext und birgt das Risiko, irrelevante alte Transaktionen einzuspielen; "Nie abrufen" verpasst das Nachschlagen.

Die Tokens IsRel und IsSup lassen sich direkt auf die Ledger-Validierungslogik übertragen. IsRel: Bezieht sich der abgerufene Transaktionseintrag tatsächlich auf die Anfrage? IsSup: Stützt der abgerufene Kontext tatsächlich den generierten Saldowert oder ist die Zahl halluziniert? Der Utility-Score (1–5) könnte das Vertrauen in den Rückschreibeprozess informieren: Ein vorgeschlagener Journal-Eintrag wird nur dann übernommen, wenn das Modell seiner eigenen Argumentation eine 4 oder 5 gibt, während der Rest zur menschlichen Überprüfung markiert wird.

Die Bedenken hinsichtlich der Reproduzierbarkeit sind auch hier von Bedeutung. Für einen produktiven Buchhaltungsagenten ist die Abhängigkeit von GPT-4 zur Generierung von Trainingslabels eine betriebliche Einschränkung. Wenn ein leichterer Evaluator (à la CRAG) ein vergleichbares selektives Retrieval erreichen kann, ist dies der einsatzfähigere Weg. Die Designprinzipien von Self-RAG – entscheiden vor dem Abrufen, kritisieren nach dem Abrufen – bleiben wertvoll, auch wenn das spezifische Rezept für das Token-Training ersetzt wird.

Was als Nächstes zu lesen ist

  • CRAG: Corrective Retrieval Augmented Generation (arXiv:2401.15884) — baut auf der Idee des adaptiven Retrievals von Self-RAG mit einem leichteren Evaluator und Web-Search-Fallback auf, wenn das lokale Retrieval fehlschlägt; ein direkter Vergleich mit Self-RAG bei überschneidenden Benchmarks lohnt sich.
  • RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation (arXiv:2404.00610) — konzentriert sich speziell auf die Anfrage-Dekomposition für komplexes Multi-Hop-QA, das Szenario, das Self-RAG am wenigsten elegant bewältigt.
  • FRAMES: Retrieval and Augmentation for Multi-Hop Evaluation (arXiv:2409.12941) — Google DeepMind Benchmark für Multi-Dokument-RAG, das die Verknüpfung mehrerer abgerufener Fakten erfordert; ein natürlicher, härterer Test für Modelle im Self-RAG-Stil.