Ir al contenido principal

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Después de leer WebArena y OSWorld — dos benchmarks en los que los agentes tienen serias dificultades con las interacciones web y de escritorio a nivel de píxel — quise dar un paso atrás y observar un benchmark complementario que evita deliberadamente ese enfoque. GAIA (Mialon et al., ICLR 2024) evalúa asistentes de IA de propósito general en preguntas que son "conceptualmente simples para los humanos pero desafiantes para las IA más avanzadas", lo que lo convierte en una medida más directa de la capacidad de agente autónomo que un asistente de Beancount realmente necesitaría.

El artículo

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA plantea una pregunta directa: si eliminamos el enfoque de exámenes profesionales especializados que define a la mayoría de los benchmarks de LLM (exámenes de abogacía, juntas médicas, matemáticas de posgrado), ¿qué tan bien se desempeñan realmente los modelos de vanguardia en las tareas cotidianas de investigación y razonamiento que un asistente humano manejaría? Mialon, Fourrier, Swift, Wolf, LeCun y Scialom reunieron 466 preguntas del mundo real que requieren navegación web, ejecución de código, comprensión multimodal y razonamiento de múltiples pasos — pero para las cuales la respuesta correcta es inequívoca y lo suficientemente concisa como para ser verificada automáticamente.

El benchmark está dividido en tres niveles. El Nivel 1 (alrededor de 146 preguntas) espera soluciones en menos de cinco pasos con un uso mínimo de herramientas. El Nivel 2 (alrededor de 245 preguntas) requiere la orquestación correcta de múltiples herramientas en cinco a diez pasos. El Nivel 3 (alrededor de 75 preguntas) exige planificación a largo plazo e integración sofisticada de herramientas. Esta no es una taxonomía arbitraria: rastrea directamente la carga de coordinación que los agentes autónomos deben mantener.

Ideas clave

  • Los humanos obtienen un 92% en total. GPT-4 con complementos obtuvo solo un 15% al momento de la publicación — una brecha de 77 puntos en tareas que una persona competente resuelve en minutos.
  • El benchmark resiste la "manipulación de resultados" de una manera que los benchmarks de exámenes no lo hacen: las respuestas requieren encontrar hechos no indexados, ejecutar cálculos o sintetizar a través de modalidades, por lo que el recuerdo del preentrenamiento por sí solo rara vez funciona.
  • Los tres niveles exponen dónde colapsan realmente los flujos de agentes: el Nivel 1 premia la buena recuperación; el Nivel 2 castiga los errores acumulados en las llamadas a herramientas; el Nivel 3 requiere un seguimiento sostenido de objetivos a lo largo de muchos pasos, algo que ningún sistema podía hacer de manera confiable al momento de la publicación.
  • Las preguntas son inequívocas por diseño — cada una tiene una respuesta corta correcta — lo que hace que la evaluación automática sea confiable, pero también limita el tipo de tarea a buscar-y-derivar en lugar de razonamiento abierto.
  • A mediados de 2026, el mejor agente reportado públicamente en la clasificación de HAL (Claude Sonnet 4.5) alcanza el 74.55% global: 82% en el Nivel 1, 73% en el Nivel 2 y 65% en el Nivel 3. El rendimiento humano sigue situándose en torno al 92%, por lo que el Nivel 3 mantiene una brecha significativa.
  • El conjunto de validación ahora está ampliamente disponible y es casi seguro que se ha filtrado en los datos de entrenamiento, lo que hace que las puntuaciones del conjunto de validación de los modelos más nuevos sean esencialmente ininterpretables. El conjunto de prueba reservado permanece más limpio pero es inaccesible para la autoevaluación.

Lo que se mantiene — y lo que no

La idea central — que los LLM de vanguardia no están ni cerca de la robustez a nivel humano en tareas prácticas de asistente — fue genuinamente importante a finales de 2023 y provocó una ola productiva de investigación sobre agentes. La estructura de tres niveles está bien calibrada: el Nivel 1 y el Nivel 3 ocupan estratos de capacidad significativamente diferentes y el benchmark no se desmorona en ninguno de los extremos.

Donde el artículo muestra su antigüedad es en la configuración de la evaluación. La línea base de "GPT-4 con complementos" ya estaba obsoleta cuando se llevó a cabo el ICLR 2024; los agentes modernos que utilizan Claude 3.7 Sonnet o Claude Sonnet 4.5 cierran gran parte de la brecha en los Niveles 1 y 2. Más seriamente, aproximadamente el 5% de las preguntas tienen errores o ambigüedades en la verdad de base, y los autores lo reconocen pero no publican un conjunto de datos corregido. Ese es un problema de fiabilidad no trivial para un benchmark de 466 preguntas.

La limitación más profunda es el formato de respuesta. GAIA funciona porque cada respuesta es una cadena corta verificable. Esa restricción limita las tareas a "buscar algo y calcularlo o transformarlo" en lugar de "redactar un plan, ejecutarlo y producir un artefacto estructurado". Los casos de uso reales de Beancount — conciliar un mes de transacciones, redactar un asiento contable para una operación de múltiples tramos, generar un informe de fin de año — no encajan en ese molde. GAIA mide una faceta de lo que necesita un asistente general; no mide la ejecución del flujo de trabajo de extremo a extremo.

La situación de la contaminación es ahora grave. Cualquier agente que enumere la precisión del conjunto de validación como su número principal sin precauciones explícitas debe ser visto con sospecha. La posición en la clasificación de los modelos más nuevos refleja casi con seguridad, en parte, el solapamiento con el conjunto de entrenamiento.

Por qué esto es importante para la IA financiera

La trayectoria del 15% al 74% en dos años y medio es alentadora, pero la brecha restante del Nivel 3 es precisamente donde vive la automatización de Beancount. Las tareas de Nivel 3 requieren el seguimiento de un estado intermedio a través de muchos pasos sin perder el objetivo — exactamente lo que un agente de escritura en el libro contable debe hacer cuando recupera saldos de cuenta, aplica una regla de conciliación, verifica el resultado contra una restricción y luego confirma o revierte los cambios. Si los agentes de vanguardia todavía fallan en el 35% de las preguntas de Nivel 3 de GAIA, que son conceptualmente simples para los humanos, esa es una advertencia directa sobre la confiabilidad para las operaciones de contabilidad de múltiples pasos.

El principio de diseño de GAIA — inequívoco, verificable, manejable para los humanos — también es una plantilla útil para evaluar agentes de Beancount. He estado pensando en cómo sería un conjunto "FinGAIA": preguntas como "¿dado este archivo de libro contable, qué cuenta está en sobregiro al final del mes?" o "¿cuál es el equivalente en USD del saldo en EUR el 2024-12-31?" que son inequívocas, requieren el uso de herramientas y se degradan con elegancia a través de tres niveles de complejidad. La metodología de GAIA se traduce directamente; el dominio solo necesita ser reemplazado.

Una cosa que GAIA no aborda — y que Bean Labs eventualmente debe resolver — es la escritura segura. Todas las tareas de GAIA son de lectura y respuesta. Un agente autónomo de Beancount que modifica el estado del libro contable necesita un protocolo de evaluación independiente para la corrección, atomicidad y reversibilidad. GAIA demuestra que los agentes pueden obtener la respuesta correcta; no dice nada sobre si pueden confirmarla de forma segura.

Qué leer a continuación

  • TheAgentCompany (arXiv:2412.14161) — 175 tareas dentro de una empresa de software simulada con herramientas internas reales; el mejor agente completa el 24% de forma autónoma; el análogo más directo para evaluar un agente de Beancount integrado en un flujo de trabajo contable real.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — evalúa agentes web en tareas realistas y que requieren mucho tiempo enviadas por usuarios reales; complementa a GAIA probando la recuperación abierta en lugar de respuestas fijas verificables.
  • WorkArena++ (arXiv:2407.05291) — extiende WorkArena a 682 tareas empresariales compuestas de múltiples pasos; las más difíciles (Nivel 3) siguen sin ser resueltas por ningún modelo actual, lo que las convierte en la próxima frontera de dificultad después del Nivel 3 de GAIA.