Fusion-in-Decoder: Wie Multi-Passage-Retrieval das generative QA verbessert
Retrieval-Augmented Generation steht oder fällt damit, wie gut der Generator Informationen synthetisieren kann, die über mehrere Dokumente verteilt sind. Das EACL-Papier von Izacard und Grave aus dem Jahr 2021, „Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering“, schlägt eine täuschend einfache architektonische Lösung vor – Passagen unabhängig kodieren, alle im Decoder zusammenführen –, die das damals dominante RAG-Framework um eine signifikante Spanne übertrifft. Ich lese es gerade, weil das Designprinzip direkt auf Ledger-QA übertragbar ist: Bevor man entscheidet, wie Einträge in Beancount-Agenten abgerufen werden, lohnt es sich zu verstehen, welche Fusionsstrategie tatsächlich funktioniert.
Das Papier
Das ursprüngliche RAG von Lewis et al. (arXiv:2005.11401) verbindet einen Dense Retriever mit einem BART-Generator, zwingt den Generator jedoch dazu, sich jeweils nur auf eine einzelne abgerufene Passage zu beziehen, wobei über die Passagen entweder pro Sequenz (RAG-Sequence) oder pro Token (RAG-Token) marginalisiert wird. Izacard und Grave identifizierten dies als die entscheidende Einschränkung: Ein Modell, das immer nur eine Passage gleichzeitig sehen kann, kann Beweise, die über mehrere Dokumente verstreut sind, nicht einfach triangulieren.
Ihre FiD-Lösung (Fusion-in-Decoder) ist elegant. Jede abgerufene Passage wird mit der Frage verkettet und dann unabhängig vom T5-Encoder kodiert. Der Encoder läuft einmal pro Passage – vollständig parallelisierbar. Der Decoder führt dann eine Cross-Attention über die Verkettung aller Passagendarstellungen gleichzeitig aus. Die Encoder-Komplexität skaliert linear mit der Anzahl der Passagen; der Decoder kann entscheidenderweise während jedes Generationsschritts über die Passagengrenzen hinweg Aufmerksamkeit (Attention) ausüben. Das Papier verwendet T5-base und T5-large als Generator-Backbone.
Kernideen
- FiD-large mit 100 abgerufenen Passagen erreicht 51,4 % Exact Match bei Natural Questions und 67,6 % bei TriviaQA Open, verglichen mit 47,5 % bzw. 56,1 % bei RAG-Sequence – Gewinne von etwa 4 bzw. 11 Punkten.
- Die Leistung bei Natural Questions skaliert monoton mit der Anzahl der Passagen: 37,3 % bei 1 Passage, 48,8 % bei 10, 50,8 % bei 50, 51,4 % bei 100. Der Grenznutzen nimmt ab, kehrt sich aber nie um.
- TriviaQA verbessert sich um 6 % und Natural Questions um 3,5 %, wenn von 10 auf 100 Passagen skaliert wird – ein Beweis dafür, dass der Decoder tatsächlich aggregiert und nicht nur die beste Passage auswählt.
- Der Kodierungsschritt ist günstig zu parallelisieren: Jedes Paar (Frage, Passage) wird unabhängig verarbeitet, sodass die tatsächliche Rechenzeit sublinear mit der Hardware skaliert.
- FiD-base mit 770 Mio. Parametern übertrifft T5-11B Closed-Book (44,1 % gegenüber 36,6 % bei NQ), was zeigt, dass Retrieval kleinere Modelle weit über ihre Gewichtsklasse hinaushebt.
Was Bestand hat – und was nicht
Das Kernergebnis ist robust und wurde vielfach repliziert. Die architektonische Erkenntnis – unabhängige Kodierung, gemeinsame Dekodierung – ist wirklich sauber: Sie vermeidet die quadratische Explosion der Self-Attention, die entstehen würde, wenn man alle Passagen naiv vor dem Encoder verketten würde, und gibt dem Decoder dennoch einen globalen Kontext über alle abgerufenen Beweise.
Die Einschränkung, die das Papier kaum anspricht, ist, dass die Cross-Attention des Decoders der Flaschenhals zur Inferenzzeit ist. Cross-Attention muss alle Encoder-Key-Value-Paare pro Decoder-Layer und pro Generationsschritt laden, und diese Key-Value-Tensoren wachsen linear mit der Anzahl der Passagen. Eine Folgestudie aus dem Jahr 2023, FiDO (arXiv:2212.08153), zeigte, dass der Ersatz von Multi-Head-Attention durch Multi-Query-Attention und das Pruning von Cross-Attention-Layern eine 7-fache Inferenzbeschleunigung bei minimalem Genauigkeitsverlust ermöglicht – was impliziert, dass der ursprüngliche FiD-Decoder für die Anforderungen der Aufgabe erheblich überdimensioniert ist.
Es gibt auch eine Kalibrierungslücke, die das Papier nicht untersucht: Es berichtet Exact Match, was Systeme belohnt, die zufällig genau die kanonische Antwortzeichenfolge produzieren. Für Aufgaben der faktischen Synthese – also das Zusammenfassen von Ergebnissen aus mehreren Passagen statt der Extraktion eines Textabschnitts – unterschätzt Exact Match Fehler und überschätzt die Konfidenz. In Finanzkontexten, wo eine falsche Zahl in einem ansonsten korrekten Satz ein schwerwiegender Fehler ist, ist Exact Match die völlig falsche Metrik.
Warum dies für Finanz-KI wichtig ist
Die Beancount-Ledger-Fragenbeantwortung ist von Natur aus ein Problem des Multi-Passage-Retrievals. Eine Frage wie „Was habe ich im 3. Quartal über alle Konten hinweg für Reisen ausgegeben?“ erfordert die Synthese von Dutzenden von Transaktionseinträgen aus verschiedenen Daten, Konten und Rohstofftypen. Die Kernerkenntnis von FiD – dass generative Modelle über viele abgerufene Passagen hinweg aggregieren können und dass sich die Leistung mit mehr Kontext verbessert – ist direkt ermutigend.
Die praktische Design-Implikation ist konkret: Beim Aufbau einer Beancount-QA-Ebene ist es wahrscheinlich besser, mehr Kandidateneinträge abzurufen (50–100 statt der üblichen Top-5) und dem Generator gemeinsamen Zugriff auf alle zu geben, anstatt sich auf Re-Ranking zu verlassen, um die eine richtige Antwort auszuwählen. Die FiD-Architektur lässt sich zudem sauber auf die Ledger-Struktur übertragen: Jeder Transaktionseintrag kann unabhängig kodiert werden (günstig, parallelisierbar), bevor der Decoder die Synthese über alle Einträge hinweg vornimmt.
Die Sorge um die Inferenzkosten ist für den Produktiveinsatz real, aber das FiDO-Follow-up zeigt, dass dies auf Architekturebene ohne Genauigkeitseinbußen lösbar ist. Die dringlichere Einschränkung für Finanzagenten ist, dass FiD für Factoid-QA mit kurzen generativen Ausgaben konzipiert ist. Ledger-Analysen erfordern oft mehrstufige Arithmetik – Addieren von Beträgen, Berechnen von Verhältnissen – und der Generator von FiD leitet dies nicht von Natur aus an einen Interpreter weiter. Die Kombination von FiD-ähnlicher Fusion mit einem PAL-ähnlichen Code-Generierungs-Head ist der natürliche nächste Schritt für numerische Genauigkeit.
Was man als Nächstes lesen sollte
- FiDO (arXiv:2212.08153, ACL Findings 2023) – Multi-Query-Attention und Cross-Attention-Pruning stellen die FiD-Genauigkeit bei 7-fach schnellerer Inferenz wieder her; essenziell vor dem Einsatz von FiD in der Produktion.
- REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) – Guu et al. zeigen, wie Retrieval bereits während des Pre-Trainings und nicht erst bei der Inferenz integriert werden kann; liefert die Upstream-Motivation, auf der FiD aufbaut.
- Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) – Izacard et al.s eigene Erweiterung von FiD auf Few-Shot-Szenarien mit gemeinsamem Training von Retriever und Reader; die vollständigste Synthese dieser Forschungsreihe.
