Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes
La presión sobre los agentes autónomos para ser tanto económicos como fiables tira en direcciones opuestas: los modelos de vanguardia son fiables pero caros, los modelos pequeños son baratos pero propensos a errores. El artículo ReDAct de Piatrashyn et al. (arXiv:2604.07036) propone un camino intermedio: ejecutar un modelo pequeño por defecto y delegar a un modelo grande solo cuando el modelo pequeño no esté seguro. Lo estoy leyendo porque la misma tensión define a todo agente de escritura de Beancount en producción: quieres que el sistema maneje la categorización rutinaria de forma económica y que escale los casos no obvios antes de que corrompan el libro mayor.
El artículo
ReDAct (Reason-Defer-Act) se basa en el paradigma de prompting ReAct e introduce una arquitectura de agentes de dos modelos. Un modelo pequeño y económico — Qwen3-80B, Llama3.3-70B o Llama4-Maverick — maneja cada paso por defecto. En cada paso, genera una traza de razonamiento y luego una acción. El sistema mide la incertidumbre a nivel de token solo sobre el paso de generación de la acción y la compara con un umbral calibrado. Si la incertidumbre supera ese umbral, el paso se vuelve a ejecutar con un modelo grande y costoso (GPT-5.2, Qwen3-235B o Qwen3-480B); de lo contrario, se ejecuta la acción del modelo pequeño.
Las medidas de incertidumbre se basan en la teoría de la información y requieren solo log-probabilidades a nivel de token: Probabilidad de Secuencia (suma de log-prob negativa), Perplejidad (normalizada por longitud) y Entropía Media de Tokens (entropía promedio en las posiciones de los tokens). El umbral se calibra a partir de un conjunto de pruebas de modelos pequeños, eligiendo el valor que produzca un número objetivo K de llamadas al modelo grande por episodio.
Ideas clave
- Medir la incertidumbre en el paso de acción, no en el de razonamiento. Un experimento auxiliar en 2,411 pasos de ALFWorld encontró que la incertidumbre a nivel de razonamiento tiene un bajo poder discriminatorio entre pasos correctos e incorrectos; la perplejidad a nivel de acción tiene un ROC-AUC y PRR significativamente mayores como predictor de corrección.
- El aplazamiento por PPL con Qwen3-80B + GPT-5.2 alcanza el 80.8% ± 1.1% en ALFWorld, superando a GPT-5.2 por sí solo con 78.3% ± 1.9%, con un costo de $16.25 frente a $45.21 — aproximadamente un 64% más barato.
- ~15% de los pasos se aplazan en la práctica para ajustarse a un objetivo de calibración de aproximadamente el 10%; la brecha surge porque las trayectorias fallidas (más cortas) contribuyen desproporcionadamente al presupuesto de aplazamiento.
- El aplazamiento aleatorio con la misma tasa obtiene un 77.0% — aún mejor que el modelo pequeño solo (68.3%), pero peor que el aplazamiento guiado por cuantificación de incertidumbre (UQ). La señal de incertidumbre realmente importa, no solo el hecho de llamar más al modelo grande.
- MiniGrid muestra menos margen de mejora. Qwen3-80B + GPT-5.2 con aplazamiento por PPL alcanza el 95.0% frente al 99.0% de GPT-5.2 solo. El vocabulario de tareas más pequeño crea un techo más difícil para el enfoque de aplazamiento cuando el modelo pequeño es estructuralmente inadecuado.
- La distribución del aplazamiento depende de la tarea. ALFWorld aplaza más en los pasos finales (historial de prompts más largo), mientras que MiniGrid muestra un patrón bimodal ligado a la posición inicial del agente. Esto significa que la calibración de umbral fijo generaliza mejor dentro de una familia de tareas que entre familias de tareas.
Qué se mantiene y qué no
El hallazgo empírico central es creíble: la perplejidad sobre la cadena de acción es un sustituto razonable para determinar si un paso determinado está a punto de fallar. La descomposición de razonamiento/acción en ReAct proporciona naturalmente un punto limpio para adjuntar una señal de incertidumbre, y el experimento auxiliar de predicción de corrección ofrece una justificación mecánica genuina para la elección del diseño.
Lo que me convence menos: el resultado de "supera al modelo grande solo" en ALFWorld. 80.8% ± 1.1% frente a 78.3% ± 1.9% se solapan en una desviación estándar. Los autores lo atribuyen a fortalezas complementarias —el modelo pequeño maneja pasos rutinarios sin la toma de riesgos ocasional del modelo grande — pero no hay una ablación por paso para verificar esta narrativa. Podría ser simplemente ruido.
La elección de los benchmarks también es limitante. ALFWorld y MiniGrid son simulaciones domésticas basadas en texto y navegación en mundos de cuadrícula; entornos estrechos que no ejercitan llamadas a herramientas, ejecución de código o recuperación de múltiples documentos. No se ha respondido si el aplazamiento calibrado por incertidumbre se mantiene en esos entornos más ricos (los relevantes para Beancount). Y la elección de GPT-5.2 como modelo grande hace que las cifras de costo sean difíciles de reproducir.
El procedimiento de calibración tiene una circularidad no abordada: el umbral se selecciona sobre la misma distribución en la que se calibró, sin validación externa. Los autores reconocen el cambio de distribución entre la calibración (pruebas del modelo pequeño) y la evaluación (pruebas híbridas), pero dejan la robustez del umbral para trabajos futuros.
Por qué esto es importante para la IA financiera
Los agentes de escritura de Beancount enfrentan exactamente la misma pregunta de aplazamiento en cada transacción. Una compra rutinaria en el supermercado necesita categorización; un swap de moneda extranjera inusual con múltiples tramos y una nota parcialmente coincidente necesita a un humano. La práctica actual es o la automatización total (arriesgada) o la revisión humana total (costosa). El marco de ReDAct sugiere un terreno intermedio viable: ejecutar el modelo barato y escalar cuando la perplejidad sobre la entrada del diario candidata supere un umbral calibrado.
El contexto financiero añade dos consideraciones que el artículo no aborda. Primero, el aplazamiento aquí debería significar a menudo detenerse y preguntar al usuario, no llamar a un LLM más grande; el estándar de corrección del libro mayor es la intención del usuario, no una puntuación de benchmark. Segundo, la irreversibilidad de una entrada de Beancount confirmada es mayor que la de un objeto mal colocado en ALFWorld. El objetivo de calibración K probablemente debería ajustarse de forma conservadora hacia una menor precisión en el modelo pequeño antes de aplazar, y no al revés.
La señal de reducción de costos del 64% merece ser tomada en serio incluso con esas advertencias. Si un agente de Beancount procesa un mes de transacciones y solo el 15% de las decisiones de categorización necesitan el modelo costoso, la economía de ejecutar un agente de escritura capaz parece mucho mejor.
Qué leer a continuación
- KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — utiliza predicción conforme para calibrar una garantía de cobertura sobre cuándo pedir ayuda. ReDAct no se compara con él; entender el equilibrio entre garantías conformes y calibración de umbrales es importante antes de elegir un enfoque de producción. [arXiv:2307.01928]
- A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. actualizado, NAACL 2024) — taxonomía sistemática de confianza verbalizada, métodos basados en muestreo y calibración post-hoc; la base teórica para decidir si la perplejidad es el sustituto de incertidumbre adecuado o si el escalado de logits calibrado funcionaría mejor. [arXiv:2311.08298]
- UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — aplica un umbral de incertidumbre estructuralmente similar a la decisión de invocación de herramientas (llamar a una herramienta frente a confiar en el conocimiento del modelo), reduciendo las llamadas a herramientas en más del 50%; el complemento directo de ReDAct para el eje de uso de herramientas de la incertidumbre del agente. [https://uala-agent.github.io/]
