τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real
Después de pasar semanas rastreando el linaje del razonamiento de tablas y text-to-SQL, quise alejarme un poco y plantear una pregunta diferente: ¿qué tan bien se desempeñan realmente los agentes actuales una vez que se les pone en un bucle operativo real con un usuario de carne y hueso? τ-bench ofrece la respuesta más honesta que he visto, y las cifras son impactantes.
El artículo
Yao, Shinn, Razavi y Narasimhan — todos en Princeton y Sierra Research — publicaron τ-bench (arXiv:2406.12045, junio de 2024) para llenar un vacío que resulta obvio en retrospectiva: la mayoría de los benchmarks de agentes entregan una tarea al modelo y evalúan su respuesta final de forma aislada. Los despliegues reales no son así. Un agente de servicio al cliente es interrumpido, se le hacen preguntas de seguimiento, se le entrega información contradictoria y se espera que aplique las políticas comerciales durante una conversación abierta antes de realizar cualquier cambio en la base de datos.
τ-bench envuelve dos dominios de servicio al cliente del mundo real — comercio minorista (retail) y aerolíneas — en un entorno de simulación donde un modelo de lenguaje interpreta al usuario y otro al agente. El agente tiene acceso a APIs específicas del dominio (cancelar un pedido, cambiar un asiento, aplicar un cupón) y un documento de política escrito que especifica qué acciones están permitidas bajo qué condiciones. La evaluación no califica los pasos intermedios: compara el estado final de la base de datos con un estado objetivo anotado. Los autores también introducen pass^k, una métrica de confiabilidad que pregunta en qué fracción de ensayos un agente tiene éxito de manera consistente a lo largo de k intentos independientes en la misma tarea.
Ideas clave
- pass^k como la métrica honesta: una puntuación pass@1 individual es demasiado ruidosa. pass^k expone la probabilidad de que un agente tenga éxito en cada una de las k repeticiones de la misma tarea — un indicador de si confiarías en él en producción.
- El abismo de la consistencia: GPT-4o en retail obtiene 0.604 en pass@1 pero cae a 0.383 en pass@4. Esto significa que en aproximadamente el 60% de las tareas falla al menos una vez en cuatro intentos — difícilmente un agente seguro para producción.
- Las aerolíneas son más difíciles que el retail: el pass@1 de GPT-4o cae de 0.604 (retail) a 0.420 (aerolíneas). Claude 3.5 Sonnet (versión de octubre de 2024) lo hace mejor — 0.692 en retail / 0.460 en aerolíneas en pass@1 — pero su pass@4 solo alcanza 0.462 y 0.225 respectivamente.
- La llamada a funciones supera a ReAct: la variante del agente GPT-4o con llamada a funciones (pass@1 = 0.420 en aerolíneas) supera tanto a Act (0.365) como a ReAct (0.325) sobre la misma base, lo que sugiere que las APIs de herramientas estructuradas reducen las fallas inducidas por el formato.
- La simulación del usuario es una variable: los autores utilizan un modelo de lenguaje para simular al usuario, lo que introduce su propia varianza. Un simulador de usuario más débil puede desinflar o inflar las puntuaciones del agente dependiendo de qué tan fielmente represente el comportamiento de un usuario antagónico.
- La evaluación del estado de la base de datos evita los juegos de crédito parcial: comparar el estado final en lugar de los pasos del diálogo significa que un agente que toma una acción correcta y luego la revierte inadvertidamente no recibe crédito — lo cual es la decisión correcta para un sistema de escritura (write-back).
Qué se mantiene y qué no
El marco de pass^k es genuinamente útil y espero que perdure más allá de este benchmark específico. La decisión de evaluar sobre el estado de la base de datos en lugar de la similitud a nivel de tokens es acertada: mide directamente si el agente cumplió la tarea, no si dijo las palabras correctas.
Los dominios, sin embargo, son limitados por diseño. El sector minorista y el de aerolíneas son procedimentalmente limpios: los documentos de política son finitos y escritos para el benchmark, las APIs son pequeñas y están bien especificadas, y el simulador de usuario es cooperativo por defecto. Los documentos de política del mundo real son ambiguos; los usuarios reales mienten, recuerdan mal y se resisten a las negativas. Los autores del benchmark lo reconocen: la existencia misma de τ²-bench (arXiv:2506.07982) como seguimiento, que se extiende a un modelo Dec-POMDP de control dual donde el usuario también manipula el estado del entorno, es una admisión de que la evaluación de control único subestima la dificultad.
También surge la duda de qué mide realmente pass^k. Si la simulación del usuario es en sí misma estocástica, la varianza a través de k ensayos confunde la inconsistencia del agente con la inconsistencia del simulador. El artículo menciona esto pero no separa completamente ambas fuentes de varianza. Para aplicaciones críticas de seguridad, querrías atribuir las fallas: ¿está el agente ignorando la política, malinterpretando la intención del usuario o simplemente eligiendo el formato de llamada de herramienta incorrecto?
La tabla de clasificación en llm-stats.com ahora muestra modelos como Step-3.5-Flash con un 0.882, lo que parecería un progreso dramático si no se notara que la configuración de evaluación probablemente ha cambiado: las nuevas entradas parecen estar calificadas bajo diferentes versiones de simuladores de usuario y posiblemente diferentes divisiones de tareas. La comparación entre entradas en benchmarks que evolucionan siempre es sospechosa.
Por qué esto es importante para la IA financiera
El agente de escritura de Beancount que tengo en mente es estructuralmente idéntico a los agentes que evalúa τ-bench: tiene herramientas específicas del dominio (añadir una transacción, corregir un saldo, recategorizar una entrada), restricciones de política (no modificar periodos cerrados, no crear saldos negativos, seguir el catálogo de cuentas) y un usuario que da instrucciones en lenguaje natural a través de una conversación que puede abarcar muchos turnos.
El hallazgo de pass^k es el resultado más accionable para nosotros. Si un modelo de vanguardia como Claude 3.5 Sonnet logra un pass@4 de solo 0.462 en retail — un dominio relativamente permisivo — deberíamos esperar una consistencia similar o peor en la escritura del libro mayor, donde los errores se acumulan a través de las transacciones y las violaciones de política pueden no ser visibles de inmediato. Diseñar para la consistencia en k-ensayos desde el principio — no solo optimizar el pass@1 y darlo por terminado — cambia la arquitectura: favorece el uso conservador de herramientas (preguntar antes de escribir, no después), pasos explícitos de verificación de política antes de cualquier llamada a la API y un agente verificador separado que audite la diferencia (diff) propuesta en la base de datos antes de que se confirme.
La metodología de evaluación del estado de la base de datos también es directamente transportable. El formato de archivo estructurado de Beancount facilita la comparación del estado esperado del libro mayor frente al estado real después de una sesión de escritura, dándonos el mismo tipo de señal de evaluación objetiva que utiliza τ-bench.
Qué leer a continuación
- τ²-bench (arXiv:2506.07982): el seguimiento que se extiende a entornos de control dual donde los usuarios también invocan herramientas; directamente relevante si modelamos al usuario como un participante activo en las correcciones del libro mayor en lugar de un solicitante pasivo.
- AgentEval / GAIA (arXiv:2311.12983): el benchmark GAIA evalúa asistentes de IA generales en tareas del mundo real que requieren navegación web y uso de herramientas; un complemento útil para el enfoque específico de dominio de τ-bench.
- WorkArena (arXiv:2403.07718): evalúa agentes en tareas reales de software empresarial en ServiceNow; el dominio está más cerca de los flujos de trabajo contables que el retail o las aerolíneas y vale la pena leerlo para aprender lecciones sobre el diseño de tareas.
