Aller au contenu principal

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

La pression exercée sur les agents autonomes pour qu'ils soient à la fois bon marché et fiables tire dans des directions opposées : les modèles de pointe sont fiables mais coûteux, tandis que les petits modèles sont abordables mais sujets aux erreurs. L'article ReDAct de Piatrashyn et al. (arXiv:2604.07036) propose une voie intermédiaire : exécuter un petit modèle par défaut et ne passer à un grand modèle que lorsque le petit modèle est incertain. Je lis cet article car cette même tension définit chaque agent de réécriture Beancount en production : vous voulez que le système gère la catégorisation courante à moindre coût et qu'il escalade les cas non évidents avant qu'ils ne corrompent le grand livre.

L'article

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (Reason-Defer-Act) s'appuie sur le paradigme de prompting ReAct et introduit une architecture d'agent à deux modèles. Un petit modèle peu coûteux — Qwen3-80B, Llama3.3-70B ou Llama4-Maverick — gère chaque étape par défaut. À chaque étape, il génère une trace de raisonnement, puis génère une action. Le système mesure l'incertitude au niveau des jetons sur la seule étape de génération d'action et la compare à un seuil calibré. Si l'incertitude dépasse ce seuil, l'étape est réexécutée par un grand modèle coûteux (GPT-5.2, Qwen3-235B ou Qwen3-480B) ; sinon, l'action du petit modèle est exécutée.

Les mesures d'incertitude sont fondées sur la théorie de l'information et ne nécessitent que les log-probabilités au niveau des jetons : Probabilité de Séquence (somme des log-probabilités négatives), Perplexité (normalisée par la longueur) et Entropie Moyenne des Jetons (entropie moyenne sur les positions des jetons). Le seuil est calibré à partir d'un ensemble de déploiements du petit modèle mis de côté, en choisissant la valeur qui produit un nombre cible K d'appels au grand modèle par épisode.

Idées clés

  • Mesurer l'incertitude à l'étape de l'action, pas à l'étape du raisonnement. Une expérience auxiliaire sur 2 411 étapes ALFWorld a révélé que l'incertitude au niveau du raisonnement a un faible pouvoir de discrimination entre les étapes correctes et incorrectes ; la perplexité au niveau de l'action possède une ROC-AUC et un PRR nettement plus élevés comme prédicteur de justesse.
  • Le report basé sur la PPL avec Qwen3-80B + GPT-5.2 atteint 80,8 % ± 1,1 % sur ALFWorld, dépassant GPT-5.2 seul à 78,3 % ± 1,9 %, tout en coûtant 16,25 $ contre 45,21 $ — soit environ 64 % d'économie.
  • Environ 15 % des étapes sont reportées en pratique pour correspondre à une cible de calibration d'environ 10 % ; l'écart provient du fait que les trajectoires échouées (plus courtes) contribuent de manière disproportionnée au budget de report.
  • Un report aléatoire au même taux n'obtient que 77,0 % — ce qui est toujours mieux que le petit modèle seul (68,3 %), mais moins bon que le report guidé par la quantification de l'incertitude (UQ). Le signal d'incertitude compte réellement, et pas seulement le fait d'appeler plus souvent le grand modèle.
  • MiniGrid montre moins de marge de progression. Qwen3-80B + GPT-5.2 avec report par PPL atteint 95,0 % contre 99,0 % pour GPT-5.2 seul. Le vocabulaire plus restreint de la tâche crée un plafond plus difficile pour l'approche de report lorsque le petit modèle est structurellement inadéquat.
  • La distribution du report dépend de la tâche. ALFWorld reporte davantage dans les étapes ultérieures (historique de prompt plus long), tandis que MiniGrid montre un profil bimodal lié à la position initiale de l'agent. Cela signifie que la calibration d'un seuil fixe se généralise mieux au sein d'une même famille de tâches qu'entre familles de tâches différentes.

Ce qui tient la route — et ce qui ne tient pas

Le constat empirique central est crédible : la perplexité sur la chaîne d'action est un substitut raisonnable pour déterminer si une étape donnée est sur le point d'échouer. La décomposition raisonnement/action de ReAct offre naturellement un point propre pour attacher un signal d'incertitude, et l'expérience auxiliaire de prédiction de justesse apporte une véritable justification mécaniste à ce choix de conception.

Ce qui me convainc moins : le résultat "dépasse le grand modèle seul" sur ALFWorld. 80,8 % ± 1,1 % contre 78,3 % ± 1,9 % se chevauchent à un écart-type près. Les auteurs attribuent cela à des forces complémentaires — le petit modèle gère les étapes de routine sans la prise de risque occasionnelle du grand modèle — mais il n'y a pas d'ablation par étape pour vérifier ce récit. Cela pourrait tout aussi bien être du bruit.

Le choix des benchmarks est également restrictif. ALFWorld et MiniGrid sont des simulations domestiques textuelles et de la navigation dans des mondes en grille — des environnements étroits qui n'exercent pas l'appel d'outils, l'exécution de code ou la récupération de documents multiples. La question de savoir si le report calibré sur l'incertitude tient dans ces contextes plus riches (ceux pertinents pour Beancount) reste sans réponse. De plus, le choix de GPT-5.2 comme grand modèle rend les chiffres de coût difficiles à reproduire.

La procédure de calibration présente une circularité non traitée : le seuil est sélectionné sur la même distribution que celle sur laquelle il a été calibré, sans validation externe. Les auteurs reconnaissent le décalage de distribution entre la calibration (déploiements du petit modèle) et l'évaluation (déploiements hybrides), mais laissent la robustesse du seuil pour des travaux futurs.

Pourquoi cela est important pour l'IA financière

Les agents de réécriture Beancount font face exactement à la même question de report à chaque transaction. Un achat courant en épicerie nécessite une catégorisation simple ; un swap de devises étrangères inhabituel à plusieurs étapes avec un libellé partiellement apparié nécessite l'intervention d'un humain. La pratique actuelle est soit l'automatisation complète (risquée), soit la révision humaine totale (coûteuse). Le cadre de ReDAct suggère un compromis viable : exécuter le modèle bon marché et escalader lorsque la perplexité sur l'écriture comptable candidate dépasse un seuil calibré.

Le contexte financier ajoute deux considérations que l'article ne traite pas. Premièrement, le report devrait ici souvent signifier s'arrêter et demander à l'utilisateur, et non appeler un LLM plus puissant — la norme de justesse du grand livre est l'intention de l'utilisateur, pas un score de benchmark. Deuxièmement, l'irréversibilité d'une écriture Beancount validée est plus élevée que celle d'un objet mal placé dans ALFWorld. La cible de calibration K devrait probablement être réglée de manière conservatrice vers une précision plus faible sur le petit modèle avant de reporter, et non l'inverse.

Le signal de réduction des coûts de 64 % mérite d'être pris au sérieux, même avec ces réserves. Si un agent Beancount traite un mois de transactions et que seulement 15 % des décisions de catégorisation nécessitent le modèle coûteux, l'économie de fonctionnement d'un agent de réécriture performant devient beaucoup plus attractive.

Que lire ensuite

  • KnowNo (Ren et al., 2023, CoRL) : "Robots that ask for help: uncertainty alignment for large language model planners" — utilise la prédiction conforme pour calibrer une garantie de couverture sur le moment où demander de l'aide. ReDAct ne se compare pas à lui ; comprendre le compromis entre les garanties conformes et la calibration de seuil est essentiel avant de choisir une approche de production. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. mis à jour, NAACL 2024) — une taxonomie systématique de la confiance verbalisée, des méthodes basées sur l'échantillonnage et de la calibration post-hoc ; le socle théorique pour décider si la perplexité est le bon indicateur d'incertitude ou si une mise à l'échelle des logits calibrée serait plus performante. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — applique un seuil d'incertitude structurellement similaire à la décision d'invocation d'outil (appeler un outil vs se fier aux connaissances du modèle), réduisant les appels d'outils de plus de 50 % ; le complément direct à ReDAct pour l'axe de l'utilisation des outils de l'incertitude de l'agent. [https://uala-agent.github.io/]