Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

16 de juny del 2026 · 7 minuts de lectura

Mike Thrift

Marketing Manager

Després de llegir WebArena i OSWorld —dos bancs de proves on els agents tenen dificultats serioses amb les interaccions a nivell de píxel a la web i a l'escriptori— volia fer un pas enrere i mirar un benchmark complementari que esquiva deliberadament aquest marc. GAIA (Mialon et al., ICLR 2024) avalua assistents d'IA de propòsit general en preguntes que són "conceptualment senzilles per als humans però un repte per a la majoria de les IA avançades", cosa que el converteix en una mesura més directa de la capacitat de l'agent autònom que un assistent de Beancount realment necessitaria.

L'article

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA planteja una pregunta directa: si eliminem el marc especialitzat d'exàmens professionals que defineix la majoria dels benchmarks de LLM (exàmens d'advocacia, juntes mèdiques, matemàtiques de nivell de postgrau), com funcionen realment els models de frontera en les tasques quotidianes de recerca i raonament que gestionaria un assistent humà? Mialon, Fourrier, Swift, Wolf, LeCun i Scialom van reunir 466 preguntes del món real que requereixen navegació web, execució de codi, comprensió multimodal i raonament multietapa, però per a les quals la resposta correcta és inequívoca i prou concisa per ser verificada automàticament.

El benchmark es divideix en tres nivells. El Nivell 1 (unes 146 preguntes) espera solucions en menys de cinc passos amb un ús mínim d'eines. El Nivell 2 (unes 245 preguntes) requereix una orquestració correcta de múltiples eines al llarg de cinc a deu passos. El Nivell 3 (unes 75 preguntes) exigeix planificació a llarg termini i una integració sofisticada d'eines. Aquesta no és una taxonomia arbitrària: reflecteix directament la càrrega de coordinació que els agents autònoms han de sostenir.

Idees clau

Els humans obtenen un 92% de puntuació global. GPT-4 amb connectors va obtenir només un 15% en el moment de la publicació: una bretxa de 77 punts en tasques que una persona competent resol en minuts.
El benchmark resisteix la "manipulació" d'una manera que els benchmarks d'exàmens no fan: les respostes requereixen trobar fets no indexats, realitzar càlculs o sintetitzar a través de modalitats, de manera que el record del preentrenament per si sol poques vegades funciona.
Els tres nivells exposen on col·lapsen realment els fluxos de treball dels agents: el Nivell 1 recompensa una bona recuperació d'informació; el Nivell 2 castiga els errors acumulats en les crides d'eines; el Nivell 3 requereix un seguiment sostingut dels objectius al llarg de molts passos, cosa que cap sistema podia fer de manera fiable en el moment de la publicació.
Les preguntes són inequívoques per disseny —cada una té una resposta curta i correcta—, cosa que fa que l'avaluació automàtica sigui fiable però també limita el tipus de tasca a la cerca i derivació en lloc d'un raonament obert.
A mitjans de 2026, el millor agent reportat públicament a la classificació HAL (Claude Sonnet 4.5) arriba al 74,55% global: 82% al Nivell 1, 73% al Nivell 2 i 65% al Nivell 3. El rendiment humà encara es manté al voltant del 92%, per la qual cosa el Nivell 3 conserva una bretxa significativa.
El conjunt de validació està ara àmpliament disponible i gairebé segur que s'ha filtrat a les dades d'entrenament, fent que les puntuacions del conjunt de validació dels models més nous siguin essencialment ininterpretables. El conjunt de prova reservat es manté més net però és inaccessible per a l'autoavaluació.

Què es manté vigent — i què no

La idea central —que els LLM de frontera no estan ni de bon tros a prop de la robustesa a nivell humà en tasques pràctiques d'assistent— va ser realment important a finals de 2023 i va desencadenar una onada productiva de recerca en agents. L'estructura de tres nivells està ben calibrada: el Nivell 1 i el Nivell 3 ocupen estrats de capacitat significativament diferents i el benchmark no col·lapsa en cap extrem.

On l'article mostra el pas del temps és en la configuració de l'avaluació. La línia base de "GPT-4 amb connectors" ja estava obsoleta quan es va celebrar l'ICLR 2024; els agents moderns que utilitzen Claude 3.7 Sonnet o Claude Sonnet 4.5 tanquen gran part de la bretxa als nivells 1 i 2. Més seriosament, aproximadament el 5% de les preguntes tenen errors o ambigüitats en la resposta correcta, i els autors ho reconeixen però no publiquen un conjunt de dades corregit. Això és un problema de fiabilitat no trivial per a un benchmark de 466 preguntes.

La limitació més profunda és el format de la resposta. GAIA funciona perquè cada resposta és una cadena curta i verificable. Aquesta restricció limita les tasques a "buscar alguna cosa i calcular-la o transformar-la" en lloc de "redactar un pla, executar-lo i produir un artefacte estructurat". Els casos d'ús reals de Beancount —conciliar un mes de transaccions, escriure un assentament per a una operació multiactiu, generar un informe de final d'any— no s'ajusten a aquest motlle. GAIA mesura una faceta del que necessita un assistent general; no mesura l'execució del flux de treball d'extrem a extrem.

La situació de contaminació és ara greu. Qualsevol agent que presenti la precisió del conjunt de validació com la seva xifra principal sense precaucions explícites hauria de ser vist amb recel. La posició en la classificació dels models més nous reflecteix gairebé segur, en part, la superposició amb el conjunt d'entrenament.

Per què això és important per a la IA financera

La trajectòria del 15% → 74% en dos anys i mig és encoratjadora, però la bretxa restant del Nivell 3 és precisament on viu l'automatització de Beancount. Les tasques de Nivell 3 requereixen el seguiment d'un estat intermedi al llarg de molts passos sense perdre l'objectiu; exactament el que ha de fer un agent d'escriptura en el llibre major quan obté saldos de comptes, aplica una regla de conciliació, verifica el resultat contra una restricció i després confirma (commit) o reverteix (roll back) l'operació. Si els agents de frontera encara fallen en el 35% de les preguntes GAIA de Nivell 3, que són conceptualment senzilles per als humans, això és un advertiment directe sobre la fiabilitat per a operacions multietapa en el llibre major.

El principi de disseny de GAIA —inequívoc, verificable, tractable pels humans— també és una plantilla útil per avaluar agents de Beancount. He estat pensant en com seria un conjunt "FinGAIA": preguntes com "donat aquest fitxer de llibre major, quin compte està en descobert a final de mes?" o "quin és l'equivalent en USD del saldo en EUR el 31-12-2024?" que siguin inequívoques, requereixin l'ús d'eines i es degradin progressivament en tres nivells de complexitat. La metodologia de GAIA es tradueix directament; només cal substituir el domini.

Una cosa que GAIA no aborda —i que Bean Labs haurà de resoldre eventualment— és l'escriptura segura. Totes les tasques de GAIA són de lectura i resposta. Un agent autònom de Beancount que modifiqui l'estat del llibre major necessita un protocol d'avaluació separat per a la correcció, atomicitat i reversibilitat. GAIA demostra que els agents poden obtenir la resposta correcta; no diu res sobre si poden confirmar-la de manera segura.

Què llegir a continuació

TheAgentCompany (arXiv:2412.14161) — 175 tasques dins d'una empresa de programari simulada amb eines internes reals; el millor agent completa el 24% de manera autònoma; l'anàleg més directe per avaluar un agent de Beancount integrat en un flux de treball comptable real.
AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — avalua agents web en tasques realistes i costoses enviades per usuaris reals; complementa GAIA provant la recuperació d'informació oberta en lloc de respostes verificables fixes.
WorkArena++ (arXiv:2407.05291) — amplia WorkArena a 682 tasques empresarials compositives i multietapa; les més difícles (Nivell 3) continuen sense ser resoltes per cap model actual, convertint-se en la propera frontera de dificultat després del Nivell 3 de GAIA.

Share on Twitter Follow @beancount_io

Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera

L'article

Idees clau

Què es manté vigent — i què no

Per què això és important per a la IA financera

Què llegir a continuació

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal

L'article​

Idees clau​

Què es manté vigent — i què no​

Per què això és important per a la IA financera​

Què llegir a continuació​

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal

L'article

Idees clau

Què es manté vigent — i què no

Per què això és important per a la IA financera

Què llegir a continuació