Doorgaan naar hoofdinhoud

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

De druk op autonome agenten om zowel goedkoop als betrouwbaar te zijn, trekt in tegenovergestelde richtingen: frontier-modellen zijn betrouwbaar maar duur, kleine modellen zijn goedkoop maar foutgevoelig. Het ReDAct-paper van Piatrashyn et al. (arXiv:2604.07036) stelt een middenweg voor — draai standaard een klein model en delegeer (defer) naar een groot model alleen wanneer het kleine model onzeker is. Ik lees het omdat dezelfde spanning elk productie-Beancount write-back agent definieert: je wilt dat het systeem routinematige categorisering goedkoop afhandelt en niet-voor de hand liggende gevallen escaleert voordat ze het grootboek corrumperen.

Het paper

2026-07-01-redact-onzekerheidsbewuste-deferral-llm-agenten

ReDAct (Reason-Defer-Act) bouwt voort op het ReAct-promptingparadigma en introduceert een agent-architectuur met twee modellen. Een klein, goedkoop model — Qwen3-80B, Llama3.3-70B, of Llama4-Maverick — handelt standaard elke stap af. Bij elke stap genereert het een redeneerspoor (reasoning trace) en vervolgens een actie. Het systeem meet de onzekerheid op tokenniveau over alleen de actie-generatiestap en vergelijkt deze met een gekalibreerde drempelwaarde. Als de onzekerheid die drempel overschrijdt, wordt de stap opnieuw uitgevoerd door een groot, duur model (GPT-5.2, Qwen3-235B, of Qwen3-480B); anders wordt de actie van het kleine model uitgevoerd.

De onzekerheidsmaten zijn informatietheoretisch en vereisen alleen log-kansen (log-probabilities) op tokenniveau: Sequence Probability (som van negatieve log-kansen), Perplexity (lengte-genormaliseerd) en Mean Token Entropy (gemiddelde entropie over tokenposities). De drempelwaarde wordt gekalibreerd op basis van een held-out set van rollouts van het kleine model, door de waarde te kiezen die een doelgericht aantal aanroepen naar het grote model per episode K produceert.

Belangrijke ideeën

  • Meet onzekerheid bij de actiestap, niet bij de redeneerstap. Een aanvullend experiment op 2.411 ALFWorld-stappen wees uit dat onzekerheid op redeneerniveau een zwak onderscheidend vermogen heeft tussen correcte en incorrecte stappen; perplexiteit op actieniveau heeft een meetbaar hogere ROC-AUC en PRR als voorspeller van correctheid.
  • PPL-deferral met Qwen3-80B + GPT-5.2 behaalt 80,8% ± 1,1% op ALFWorld, wat hoger is dan GPT-5.2 alleen (78,3% ± 1,9%), terwijl het $16,25 kost tegenover $45,21 — ongeveer 64% goedkoper.
  • ~15% van de stappen wordt gedelegeerd in de praktijk om een kalibratiedoel van ongeveer 10% te halen; het verschil ontstaat doordat mislukte (kortere) trajecten onevenredig veel bijdragen aan het budget voor deferral.
  • Willekeurige deferral bij hetzelfde percentage scoort 77,0% — nog steeds beter dan alleen het kleine model (68,3%), maar slechter dan door UQ (uncertainty quantification) gestuurde deferral. Het onzekerheidssignaal doet er echt toe, niet alleen het feit dat het grote model vaker wordt aangeroepen.
  • MiniGrid toont minder ruimte voor verbetering. Qwen3-80B + GPT-5.2 met PPL-deferral bereikt 95,0% tegenover 99,0% voor GPT-5.2 alleen. De kleinere taak-vocabulaire zorgt voor een harder plafond voor de deferral-aanpak wanneer het kleine model structureel ontoereikend is.
  • Verdeling van deferral is taakafhankelijk. ALFWorld delegeert meer in latere stappen (langere promptgeschiedenis), terwijl MiniGrid een bimodaal patroon vertoont dat gekoppeld is aan de initiële positie van de agent. Dit betekent dat kalibratie met een vaste drempelwaarde beter generaliseert binnen een taakfamilie dan tussen verschillende taakfamilies.

Wat overeind blijft — en wat niet

De kernbevinding op empirisch gebied is geloofwaardig: perplexiteit over de actiestring is een redelijke proxy voor de vraag of een bepaalde stap fout dreigt te gaan. De redeneer/actie-decompositie in ReAct biedt op natuurlijke wijze een helder punt om een onzekerheidssignaal aan te koppelen, en het aanvullende experiment voor correctheidsvoorspelling geeft een oprechte mechanistische rechtvaardiging voor de ontwerpkeuze.

Waar ik minder van overtuigd ben: het resultaat dat het grote model wordt overtroffen op ALFWorld. 80,8% ± 1,1% versus 78,3% ± 1,9% overlappen bij één standaarddeviatie. De auteurs schrijven dit toe aan complementaire krachten — het kleine model handelt routine-stappen af zonder de incidentele risico's die het grote model neemt — maar er is geen ablatie per stap om dit verhaal te verifiëren. Het zou evengoed ruis kunnen zijn.

De keuze van benchmarks is ook beperkt. ALFWorld en MiniGrid zijn op tekst gebaseerde huishoudsimulaties en grid-world navigatie — nauwe omgevingen waarin tool-calling, code-executie of het ophalen van meerdere documenten niet worden getest. Of onzekerheids-gekalibreerde deferral standhoudt in die rijkere contexten (de contexten die relevant zijn voor Beancount) blijft onbeantwoord. En de keuze voor GPT-5.2 als groot model maakt de kostencijfers moeilijk te reproduceren.

De kalibratieprocedure bevat een niet-geadresseerde circulariteit: de drempelwaarde wordt geselecteerd op dezelfde distributie als waarop deze is gekalibreerd, zonder validatie op een apart gehouden set. De auteurs erkennen de verschuiving in distributie tussen kalibratie (rollouts van het kleine model) en evaluatie (hybride rollouts), maar laten de robuustheid van de drempelwaarde over aan toekomstig werk.

Waarom dit belangrijk is voor finance AI

Beancount write-back agenten staan voor precies dezelfde deferral-vraag bij elke transactie. Een routinematige boodschappenaankoop heeft categorisering nodig; een ongebruikelijke multi-leg valutaswap met een gedeeltelijk gematchte omschrijving heeft een mens nodig. De huidige praktijk is ofwel volledige automatisering (risicovol) of volledige menselijke beoordeling (duur). Het ReDAct-framework suggereert een werkbare middenweg: draai het goedkope model en escaleer wanneer de perplexiteit over de kandidaat-boeking een gekalibreerde drempelwaarde overschrijdt.

De financiële context voegt twee overwegingen toe die het paper niet behandelt. Ten eerste zou deferral hier vaak moeten betekenen: pauzeren en de gebruiker om hulp vragen, in plaats van een groter LLM aanroepen — de standaard voor correctheid van het grootboek is de intentie van de gebruiker, niet een benchmarkscore. Ten tweede is de onomkeerbaarheid van een definitieve Beancount-boeking groter dan een verkeerd geplaatst object in ALFWorld. Het kalibratiedoel K zou waarschijnlijk conservatief moeten worden afgestemd op een lagere precisie van het kleine model alvorens te delegeren, en niet andersom.

Het signaal van 64% kostenbesparing is de moeite waard om serieus te nemen, zelfs met deze kanttekeningen. Als een Beancount-agent een maand aan transacties verwerkt en slechts 15% van de categoriseringsbeslissingen het dure model nodig heeft, ziet de economie van het draaien van een capabele write-back agent er veel gunstiger uit.

Wat nu te lezen

  • KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — gebruikt conformale voorspelling (conformal prediction) om een dekking-garantie te kalibreren voor wanneer hulp moet worden gevraagd. ReDAct vergelijkt hier niet mee; het begrijpen van de afweging tussen conformale garanties en drempelkalibratie is essentieel alvorens een productiebenadering te kiezen. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. geüpdatet, NAACL 2024) — een systematische taxonomie van geverbaliseerd vertrouwen, op sampling gebaseerde methoden en post-hoc kalibratiemethoden; de theoretische achtergrond om te bepalen of perplexiteit de juiste onzekerheidsproxy is of dat gekalibreerde logit-schaling beter zou presteren. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — past een structureel vergelijkbare onzekerheidsdrempel toe op de beslissing voor tool-aanroepen (een tool gebruiken vs. vertrouwen op modelkennis), waardoor het aantal tool-aanroepen met meer dan 50% wordt verminderd; de directe aanvulling op ReDAct voor de tool-gebruik-as van agent-onzekerheid. [https://uala-agent.github.io/]