Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte
Der Druck auf autonome Agenten, sowohl kostengünstig als auch zuverlässig zu sein, zieht in entgegengesetzte Richtungen: Frontier-Modelle sind zuverlässig, aber teuer; kleine Modelle sind günstig, aber fehleranfällig. Das ReDAct-Paper von Piatrashyn et al. (arXiv:2604.07036) schlägt einen Mittelweg vor: Ein kleines Modell wird standardmäßig ausgeführt und die Aufgabe wird nur dann an ein großes Modell weitergeleitet, wenn das kleine Modell unsicher ist. Ich lese es, weil genau dieses Spannungsfeld jeden produktiven Beancount-Write-Back-Agenten definiert: Man möchte, dass das System Routinekategorisierungen kostengünstig erledigt und nicht offensichtliche Fälle eskaliert, bevor sie das Hauptbuch korrumpieren.
Das Paper
ReDAct (Reason-Defer-Act) baut auf dem ReAct-Prompting-Paradigma auf und führt eine Zwei-Modell-Agenten-Architektur ein. Ein kleines, günstiges Modell – Qwen3-80B, Llama3.3-70B oder Llama4-Maverick – übernimmt standardmäßig jeden Schritt. Bei jedem Schritt generiert es eine Gedankenkette (Reasoning Trace) und anschließend eine Aktion. Das System misst die Unsicherheit auf Token-Ebene nur über den Schritt der Aktionsgenerierung und vergleicht diese mit einem kalibrierten Schwellenwert. Wenn die Unsicherheit diesen Schwellenwert überschreitet, wird der Schritt von einem großen, teuren Modell (GPT-5.2, Qwen3-235B oder Qwen3-480B) erneut ausgeführt; andernfalls wird die Aktion des kleinen Modells ausgeführt.
Die Unsicherheitsmaße sind informationstheoretisch und erfordern nur Log-Wahrscheinlichkeiten auf Token-Ebene: Sequenzwahrscheinlichkeit (summierte negative Log-Wahrscheinlichkeit), Perplexität (längennormalisiert) und mittlere Token-Entropie (durchschnittliche Entropie über Token-Positionen hinweg). Der Schwellenwert wird anhand eines separaten Satzes von Rollouts des kleinen Modells kalibriert, indem der Wert gewählt wird, der eine Zielanzahl von Aufrufen des großen Modells pro Episode K erzeugt.
Kernideen
- Unsicherheit beim Aktionsschritt messen, nicht beim Gedankengang. Ein Hilfsexperiment mit 2.411 ALFWorld-Schritten ergab, dass die Unsicherheit auf Reasoning-Ebene eine geringe Trennschärfe zwischen korrekten und inkorrekten Schritten aufweist; die Perplexität auf Aktionsebene hat als Prädiktor für die Korrektheit eine messbar höhere ROC-AUC und PRR.
- PPL-Weiterleitung mit Qwen3-80B + GPT-5.2 erreicht 80,8 % ± 1,1 % auf ALFWorld und übertrifft damit GPT-5.2 allein (78,3 % ± 1,9 %), bei Kosten von 16,25 $ gegenüber 45,21 $ – etwa 64 % günstiger.
- ~15 % der Schritte werden in der Praxis weitergeleitet, um ein Kalibrierungsziel von etwa 10 % zu erreichen; die Differenz entsteht, weil fehlgeschlagene (kürzere) Trajektorien überproportional zum Weiterleitungsbudget beitragen.
- Zufällige Weiterleitung bei gleicher Rate erzielt 77,0 % – immer noch besser als nur das kleine Modell (68,3 %), aber schlechter als UQ-gesteuerte Weiterleitung. Das Unsicherheitssignal ist tatsächlich von Bedeutung, nicht nur der Akt, das große Modell häufiger aufzurufen.
- MiniGrid zeigt weniger Spielraum. Qwen3-80B + GPT-5.2 mit PPL-Weiterleitung erreicht 95,0 % gegenüber 99,0 % für GPT-5.2 allein. Das kleinere Aufgabenvokabular schafft eine härtere Obergrenze für den Weiterleitungsansatz, wenn das kleine Modell strukturell unzureichend ist.
- Die Verteilung der Weiterleitungen ist aufgabenabhängig. ALFWorld leitet in späteren Schritten (längere Prompt-Historie) häufiger weiter, während MiniGrid ein bimodales Muster zeigt, das an die ursprüngliche Position des Agenten gebunden ist. Dies bedeutet, dass eine feste Schwellenwertkalibrierung innerhalb einer Aufgabenfamilie besser generalisiert als über Aufgabenfamilien hinweg.
Was Bestand hat – und was nicht
Das zentrale empirische Ergebnis ist glaubwürdig: Die Perplexität über den Aktionsstring ist ein vernünftiger Proxy dafür, ob ein bestimmter Schritt kurz davor steht, schiefzugehen. Die Reasoning/Acting-Dekomposition in ReAct bietet von Natur aus einen sauberen Punkt, um ein Unsicherheitssignal anzubringen, und das Hilfsexperiment zur Korrektheitsvorhersage liefert eine echte mechanistische Rechtfertigung für die Designentscheidung.
Was mich weniger überzeugt: das Ergebnis „übertrifft das große Modell allein“ auf ALFWorld. 80,8 % ± 1,1 % vs. 78,3 % ± 1,9 % überschneiden sich bei einer Standardabweichung. Die Autoren führen dies auf komplementäre Stärken zurück – das kleine Modell erledigt Routineaufgaben ohne die gelegentliche Risikobereitschaft des großen Modells –, aber es gibt keine Ablationsstudie pro Schritt, um diese Erzählung zu verifizieren. Es könnte genauso gut Rauschen sein.
Die Wahl des Benchmarks ist ebenfalls einschränkend. ALFWorld und MiniGrid sind textbasierte Haushaltssimulationen und Gitterwelt-Navigationen – enge Umgebungen, in denen Tool-Aufrufe, Code-Ausführung oder Multi-Dokument-Retrieval nicht erprobt werden. Ob eine unsicherheitskalibrierte Weiterleitung in diesen reichhaltigeren Umgebungen (den für Beancount relevanten Umgebungen) Bestand hat, bleibt unbeantwortet. Und die Wahl von GPT-5.2 als großes Modell macht die Kostenzahlen schwer reproduzierbar.
Das Kalibrierungsverfahren weist eine nicht adressierte Zirkularität auf: Der Schwellenwert wird auf derselben Verteilung ausgewählt, auf der er kalibriert wurde, ohne Validierung an einem zurückgehaltenen Datensatz. Die Autoren räumen eine Verteilungsverschiebung zwischen Kalibrierung (Rollouts des kleinen Modells) und Evaluierung (Hybrid-Rollouts) ein, überlassen die Robustheit des Schwellenwerts jedoch zukünftigen Arbeiten.
Warum dies für Finanz-KI wichtig ist
Beancount-Write-Back-Agenten stehen bei jeder Transaktion vor genau derselben Weiterleitungsfrage. Ein routinemäßiger Lebensmitteleinkauf erfordert eine Kategorisierung; ein ungewöhnlicher mehrstufiger Fremdwährungsswap mit einem nur teilweise übereinstimmenden Verwendungszweck benötigt einen Menschen. Die aktuelle Praxis ist entweder volle Automatisierung (riskant) oder vollständige menschliche Überprüfung (teuer). Das Framework von ReDAct schlägt einen praktikablen Mittelweg vor: Das günstige Modell ausführen und eskalieren, wenn die Perplexität über den potenziellen Journaleintrag einen kalibrierten Schwellenwert überschreitet.
Der Finanzkontext fügt zwei Überlegungen hinzu, die das Paper nicht anspricht. Erstens sollte Weiterleitung hier oft bedeuten, einzuhalten und den Benutzer zu fragen, anstatt ein größeres LLM aufzurufen – der Standard für die Korrektheit des Ledgers ist die Absicht des Benutzers, nicht ein Benchmark-Score. Zweitens ist die Irreversibilität eines festgeschriebenen Beancount-Eintrags höher als ein falsch platzierter Gegenstand in ALFWorld. Das Kalibrierungsziel K sollte wahrscheinlich konservativ auf eine geringere Präzision beim kleinen Modell abgestimmt werden, bevor weitergeleitet wird, und nicht umgekehrt.
Das Signal der Kostensenkung um 64 % ist trotz dieser Vorbehalte ernst zu nehmen. Wenn ein Beancount-Agent die Transaktionen eines Monats verarbeitet und nur 15 % der Kategorisierungsentscheidungen das teure Modell benötigen, sieht die Wirtschaftlichkeit des Betriebs eines fähigen Write-Back-Agenten deutlich besser aus.
Was man als Nächstes lesen sollte
- KnowNo (Ren et al., 2023, CoRL): „Robots that ask for help: uncertainty alignment for large language model planners“ – verwendet konforme Vorhersagen, um eine Abdeckungsgarantie dafür zu kalibrieren, wann um Hilfe gebeten werden muss. ReDAct vergleicht sich nicht damit; das Verständnis des Kompromisses zwischen konformen Garantien und Schwellenwertkalibrierung ist wichtig, bevor man sich für einen Produktionsansatz entscheidet. [arXiv:2307.01928]
- A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. aktualisiert, NAACL 2024) – systematische Taxonomie von verbalisiertem Vertrauen, stichprobenbasierten und Post-hoc-Kalibrierungsmethoden; der theoretische Hintergrund für die Entscheidung, ob Perplexität der richtige Proxy für Unsicherheit ist oder ob eine kalibrierte Logit-Skalierung besser abschneiden würde. [arXiv:2311.08298]
- UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) – wendet einen strukturell ähnlichen Unsicherheitsschwellenwert auf die Entscheidung zur Tool-Innvokation an (ein Tool aufrufen vs. sich auf das Modellwissen verlassen) und reduziert Tool-Aufrufe um über 50 %; die direkte Ergänzung zu ReDAct für die Tool-Nutzungs-Achse der Agentenunsicherheit. [https://uala-agent.github.io/]
