ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen
ReAct (Yao et al., ICLR 2023) ist das Paper hinter der Reasoning-then-Acting-Schleife, die die meisten modernen Finanzagenten mittlerweile standardmäßig als Grundgerüst nutzen. Ich habe es vor mir hergeschoben, weil es sich wie Infrastruktur anfühlt – die Art von Sache, die ohnehin jeder kennt –, aber nachdem ich Zeit mit autonomen Ledger-Write-Backs verbracht habe, wollte ich die Fehlermodi an der Quelle verstehen, nicht aus nachgelagerter Folklore.
Das Paper
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan und Yuan Cao schlagen eine täuschend einfache Idee vor: Anstatt ein Sprachmodell zu bitten, entweder Schlussfolgerungen zu ziehen (Chain-of-Thought) oder zu handeln (Werkzeuge aufzurufen), lässt man es beides in einem verschränkten Stream tun. Jeder Schritt in der Trajektorie ist entweder ein Thought (freie Schlussfolgerung darüber, was als Nächstes zu tun ist) oder ein Act/Obs-Paar (eine Aktion und deren Beobachtung aus der Umgebung). Die Behauptung ist, dass diese Verschränkung synergetisch wirkt – die Argumentation bestimmt, welche Aktionen ausgeführt werden, und die Beobachtungen formen die Argumentation neu.
Sie testen dies auf vier Benchmarks: HotpotQA und Fever (wissensintensive Fragenbeantwortung und Faktenprüfung unter Nutzung einer Wikipedia-Such-API als Aktionsraum) sowie ALFWorld und WebShop (verkörperte und simulierte E-Commerce-Umgebungen, die mehrstufige Entscheidungsfindungen erfordern). Alle Experimente nutzen PaLM-540B und GPT-3 (text-davinci-002) unter Few-Shot-Prompting mit nur ein oder zwei In-Context-Beispielen.
Kernideen
- Bei ALFWorld übertrifft ReAct die Baselines für Imitationslernen und Reinforcement Learning um absolute 34 Prozentpunkte bei der Erfolgsrate; bei WebShop liegt der Gewinn bei absoluten 10 Prozentpunkten.
- Bei Fever (Faktenprüfung) übertrifft ReAct die Chain-of-Thought-Methode. Bei HotpotQA (Multi-Hop-QA) schlägt CoT ReAct tatsächlich – das Paper erkennt dies direkt an, anstatt es zu verschleiern.
- Die Fehlerfälle lassen sich in zwei Typen unterteilen: Argumentationsfehler (das Modell schätzt falsch ein, welche Informationen es hat) und Suchfehler (ein nicht informatives Wikipedia-Ergebnis bringt die nachfolgende Argumentationskette aus dem Tritt). Diese sind qualitativ verschieden und erfordern unterschiedliche Gegenmaßnahmen.
- Das Format selbst ist interpretierbar: Ein Mensch kann die Thought-Trace lesen, den Fehler finden und ihn korrigieren, indem er eine einzige Zeile bearbeitet. Dies wird explizit als Sicherheitseigenschaft hervorgehoben.
- Das Fine-Tuning kleinerer Modelle auf ReAct-Trajektorien ermöglicht es diesen, größere Modelle mit Prompting zu übertreffen – was darauf hindeutet, dass das verschränkte Format erlernbar ist und nicht nur ein Prompting-Trick.
Was Bestand hat – und was nicht
Die Ergebnisse zur interaktiven Entscheidungsfindung (ALFWorld, WebShop) sind der stärkste Teil des Papers. Der Vorsprung gegenüber reinem Imitationslernen ist groß genug, um ihn kaum auf Hyperparameter-Glück zurückzuführen. Die Argumentationsspuren sind wirklich lesbar, und die Fehleranalyse, die Suchfehler von Argumentationsfehlern unterscheidet, ist ehrlich und nützlich.
Die Ergebnisse zur wissensintensiven Fragenbeantwortung sind schwächer, und die Autoren wissen das. Dass ReAct gegen CoT bei HotpotQA verliert, ist ein wichtiger Datenpunkt: Wenn die Antwort durch die Verknüpfung von internem Modellwissen erreicht werden kann, schadet der Reibungsverlust durch Werkzeugaufrufe tatsächlich. Das Modell ruft manchmal eine Wikipedia-Passage ab, die nur am Rande relevant ist, verankert sich darauf und produziert dann eine schlechtere Argumentation, als wenn es einfach "im eigenen Kopf" geblieben wäre. Das Paper nennt dies "suchinduzierte Ablenkung" (search-induced distraction), und dies wird nicht durch die Architektur behoben – es ist ein Problem der Retrieval-Qualität, das als Agenten-Problem getarnt ist.
Es gibt auch ein grundlegendes Evaluierungsproblem, das das Paper von den Benchmarks übernimmt: Sowohl ALFWorld als auch WebShop haben relativ eingeschränkte Aktionsräume im Vergleich zu dem, was ein Agent in der realen Welt benötigt. Die 34-prozentige Verbesserung bei ALFWorld ist innerhalb des Spiels beeindruckend, aber ALFWorld ist eine simulierte Haushaltsumgebung mit einem kleinen, festen Vokabular an Aktionen. Davon auf beispielsweise ein Beancount-Ledger mit einem offenen Transaktionsschema zu verallgemeinern, erfordert eine Extrapolation, die das Paper nicht rechtfertigt.
Das Few-Shot-Setup ist sowohl eine Stärke als auch eine Schwäche. Ein oder zwei In-Context-Beispiele sind beeindruckend, bedeuten aber auch, dass die Ergebnisse hochsensibel gegenüber der Auswahl der Beispiele sind. Ich habe im Paper keine Ablationen zur Beispielauswahl gefunden, was nützlich gewesen wäre.
Warum dies für Finanz-KI wichtig ist
Das Problem der Sicherheit beim Zurückschreiben (Write-back Safety) für autonome Beancount-Agenten entspricht genau dem Fehlerszenario, das ReAct beleuchtet. Wenn ein Agent eine Entscheidung zur Transaktionskategorisierung durchdenkt und einen mehrdeutigen Ledger-Eintrag abruft – einen, der entweder auf Ausgaben:Lebensmittel oder Ausgaben:Unterhaltung passen könnte –, wird das ReAct-Muster die nachfolgende Argumentation an der Interpretation verankern, die der erste abgerufene Eintrag suggeriert. Dies ist das Finanz-Analogon zur „suchinduzierten Ablenkung“, und es verschwindet nicht durch sorgfältigeres Prompting.
Das Argument der Interpretierbarkeit ist hier wichtiger, als es das Paper vermutlich beabsichtigt hat. In der Buchhaltung benötigt ein Prüfer nicht nur die richtige Antwort – er benötigt eine nachvollziehbare Argumentationskette, die er abzeichnen kann. Die Thought-Traces von ReAct liefern diese Kette, und die Beobachtung, dass ein Mensch eine Trajektorie durch Bearbeiten eines einzelnen Gedankens korrigieren kann, ist direkt auf einen Human-in-the-Loop-Prüfschritt anwendbar, bevor ein Buchungssatz im Ledger festgeschrieben wird.
Der Fehlermodus, der mich am meisten beschäftigt, sind jedoch sich summierende Fehler bei Aufgaben mit langem Zeithorizont. Eine Reconciliation-Aufgabe, die fünfzig Transaktionen umfasst, bietet viel mehr Gelegenheiten für einen fehlerhaften Thought als eine einfache Wikipedia-Suche. ReAct bietet keinen nativen Mechanismus für den Agenten, um zu erkennen, dass er vom Kurs abgekommen ist – er macht einfach weiter. Reflexion (Shinn et al., arXiv:2303.11366) adressiert dies durch Hinzufügen eines verbalen Selbstevaluierungsschritts, und ReAct + Reflexion löst 130 von 134 ALFWorld-Aufgaben im Vergleich zu ReAct allein. Dieses Delta zeigt, wie viel Wert darin liegt, eine Korrekturschleife über das grundlegende ReAct-Gerüst zu legen.
Was man als Nächstes lesen sollte
- Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023, arXiv:2303.11366) – fügt einen Selbstreflexionsschritt hinzu, der es einem ReAct-Agenten ermöglicht, seine Strategie über Episoden hinweg zu revidieren; die direkteste Erweiterung für Ledger-Agenten, die sich von Fehlern mitten in der Trajektorie erholen müssen.
- FireAct: Toward Language Agent Fine-tuning (Chen et al., 2023, arXiv:2310.05915) – optimiert Modelle speziell auf ReAct-Trajektorien über mehrere Werkzeuge hinweg; relevant für das Training eines Beancount-spezifischen Agenten auf realen Ledger-Tool-Aufrufen.
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) – untersucht die Suche über Argumentationspfade, anstatt sich auf eine einzige Kette festzulegen; wichtig für Fälle, in denen die erste ReAct-Trajektorie falsch ist und systematisches Backtracking erfordert.
