Salta al contingut principal

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La pressió sobre els agents autònoms per ser alhora barats i fiables els empeny en direccions oposades: els models de frontera són fiables però cars, els models petits són barats però propensos a errors. L'article ReDAct de Piatrashyn et al. (arXiv:2604.07036) proposa un camí intermedi: executar un model petit per defecte i delegar en un model gran només quan el model petit estigui incert. Ho llegeixo perquè aquesta mateixa tensió defineix cada agent d'escriptura (write-back) de Beancount en producció: vols que el sistema gestioni la categorització rutinària de manera econòmica i que escali els casos no obvis abans que corrompin el llibre major.

L'article

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (Reason-Defer-Act) es basa en el paradigma d'instruccions ReAct i introdueix una arquitectura d'agent de dos models. Un model petit i barat — Qwen3-80B, Llama3.3-70B o Llama4-Maverick — gestiona cada pas per defecte. En cada pas, genera una traça de raonament i després genera una acció. El sistema mesura la incertesa a nivell de tòquens només en el pas de generació de l'acció i la compara amb un llindar calibrat. Si la incertesa supera aquest llindar, el model gran i car (GPT-5.2, Qwen3-235B o Qwen3-480B) torna a executar el pas; en cas contrari, s'executa l'acció del model petit.

Les mesures d'incertesa es basen en la teoria de la informació i només requereixen log-probabilitats a nivell de tòquens: Probabilitat de Seqüència (suma de log-probabilitats negatives), Perplexitat (normalitzada per longitud) i Entropia Mitjana de Tòquens (entropia mitjana en les posicions dels tòquens). El llindar es calibra a partir d'un conjunt reservat d'execucions del model petit triant el valor que produeix un nombre objectiu K de crides al model gran per episodi.

Idees clau

  • Mesurar la incertesa en el pas de l'acció, no en el de raonament. Un experiment auxiliars sobre 2.411 passos d'ALFWorld va trobar que la incertesa en el raonament té un poder discriminatiu pobre entre passos correctes i incorrectes; la perplexitat en l'acció té un ROC-AUC i un PRR mesurablement més alts com a predictor de correcció.
  • La transferència per perplexitat amb Qwen3-80B + GPT-5.2 aconsegueix un 80,8% ± 1,1% a ALFWorld, superant el 78,3% ± 1,9% de GPT-5.2 sol, amb un cost de 16,25 $ en comptes de 45,21 $, aproximadament un 64% més barat.
  • Es transfereixen un ~15% dels passos a la pràctica per coincidir amb un objectiu de calibratge d'aproximadament el 10%; la diferència sorgeix perquè les trajectòries fallides (més curtes) contribueixen de manera desproporcionada al pressupost de transferència.
  • La transferència aleatòria a la mateixa taxa puntua un 77,0% — millor que només el model petit (68,3%), però pitjor que la transferència guiada per la quantificació de la incertesa (UQ). El senyal d'incertesa realment importa, no només el fet de cridar més al model gran.
  • MiniGrid mostra menys marge de millora. Qwen3-80B + GPT-5.2 amb transferència per perplexitat arriba al 95,0% enfront del 99,0% de GPT-5.2 sol. El vocabulari de tasques més petit crea un sostre més difícil per a l'enfocament de transferència quan el model petit és estructuralment inadequat.
  • La distribució de la transferència depèn de la tasca. ALFWorld transfereix més en els passos finals (historial d'instruccions més llarg), mentre que MiniGrid mostra un patró bimodal lligat a la posició inicial de l'agent. Això significa que el calibratge del llindar fix generalitza millor dins d'una família de tasques que entre diferents famílies.

Què se sosté — i què no

La troballa empírica central és creïble: la perplexitat sobre la cadena d'acció és un substitut raonable per saber si un pas determinat està a punt d'anar malament. La descomposició raonament/acció de ReAct proporciona naturalment un punt net per adjuntar un senyal d'incertesa, i l'experiment auxiliar de predicció de correcció ofereix una justificació mecànica genuïna per a la decisió de disseny.

El que no em convenç tant: el resultat de "supera el model gran sol" a ALFWorld. El 80,8% ± 1,1% i el 78,3% ± 1,9% se solapen en una desviació estàndard. Els autors ho atribueixen a fortaleses complementàries —el model petit gestiona els passos rutinaris sense l'asumpció de riscos ocasional del model gran—, però no hi ha cap ablació per pas que verifiqui aquesta narrativa. Podria ser simplement soroll.

L'elecció del banc de proves també és limitadora. ALFWorld i MiniGrid són simulacions domèstiques basades en text i navegació per graelles: entorns estrets que no posen a prova les crides a eines, l'execució de codi o la recuperació de múltiples documents. No s'ha respost si la transferència calibrada per la incertesa se sosté en aquests entorns més rics (els rellevants per a Beancount). I l'elecció de GPT-5.2 com a model gran fa que les xifres de costos siguin difícils de reproduir.

El procediment de calibratge té una circularitat no resolta: el llindar se selecciona sobre la mateixa distribució en què s'ha calibrat, sense una validació independent. Els autors reconeixen el desplaçament de la distribució entre el calibratge (execucions del model petit) i l'avaluació (execucions híbrides), però deixen la robustesa del llindar per a treballs futurs.

Per què això és important per a la IA en finances

Los agents d'escriptura de Beancount s'enfronten exactament a la mateixa pregunta de transferència en cada transacció. Una compra rutinària de queviures necessita categorització; un swap de divises inusual de diverses potes amb un memo parcialment coincident necessita un humà. La pràctica actual és o bé l'automatització total (arriscada) o bé la revisió humana total (cara). El marc de ReDAct suggereix un terme mitjà viable: executar el model barat i escalar quan la perplexitat sobre la proposta d'apunt comptable superi un llindar calibrat.

El context financer afegeix dues consideracions que l'article no aborda. Primer, la transferència aquí sovint hauria de significar aturar-se i preguntar a l'usuari, no cridar a un LLM més gran; l'estàndard de correcció del llibre major és la intenció de l'usuari, no una puntuació en un banc de proves. Segon, la irreversibilitat d'una entrada de Beancount consolidada és més alta que la d'un objecte mal col·locat a ALFWorld. L'objectiu de calibratge K probablement s'hauria d'ajustar de manera conservadora cap a una menor precisió en el model petit abans de transferir, i no al revés.

El senyal de reducció de costos del 64% val la pena ser pres seriosament fins i tot amb aquestes advertències. Si un agent de Beancount processa un mes de transaccions i només el 15% de les decisions de categorització necessiten el model car, l'economia d'executar un agent d'escriptura capaç sembla molt millor.

Què llegir a continuació

  • KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — utilitza la predicció conformada per calibrar una garantia de cobertura sobre quan demanar ajuda. ReDAct no es compara amb ell; entendre el compromís entre les garanties conformades i el calibratge del llindar és clau abans de triar un enfocament de producció. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. actualitzat, NAACL 2024) — taxonomia sistemàtica de mètodes de confiança verbalitzada, basats en mostreig i de calibratge post-hoc; el rerefons teòric per decidir si la perplexitat és el substitut d'incertesa adequat o si un escalat de logit calibrat funcionaria millor. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — aplica un llindar d'incertesa estructuralment similar a la decisió d'invocació d'eines (cridar a una eina en comptes de confiar en el coneixement del model), reduint les crides a eines en més d'un 50%; el complement directe de ReDAct per a l'eix de l'ús d'eines de la incertesa de l'agent. [https://uala-agent.github.io/]