Salta al contingut principal

AgentBench: Avaluant els LLM com a agents — Lliçons per a la fiabilitat de la IA en finances

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Quan em pregunto què necessita realment fer de manera fiable un agent d'escriptura de Beancount, la resposta no és "generar text", sinó "executar una seqüència d'accions en un entorn estructurat sense descarrilar". AgentBench (Liu et al., Tsinghua, ICLR 2024) és un dels primers intents seriosos de mesurar aquesta capacitat a escala, i les dades de la instantània de 2023 encara contenen lliçons que val la pena extreure.

L'article

2026-05-06-agentbench-evaluating-llms-as-agents

AgentBench, creat per Xiao Liu i 21 coautors de la Universitat de Tsinghua, defineix vuit entorns dissenyats per posar a prova els LLM com a agents interactius en lloc de generadors de text passius. Cinc entorns són originals: OS (interacció bash), Database (generació SQL i recuperació d'errors), Knowledge Graph (consultes estructurades basades en eines), Digital Card Game (competició estratègica de diversos torns) i Lateral Thinking Puzzles (diàleg deductiu). Tres estan adaptats de conjunts de dades anteriors: House-Holding d'ALFWorld, Web Shopping de WebShop i Web Browsing de Mind2Web. L'article avalua 27 models —models d'API comercials i models de codi obert de fins a 70B— a través d'unes 4.000 generacions de la divisió de desenvolupament i 13.000 de la divisió de prova, i informa tant de les taxes d'èxit per entorn com d'una puntuació global composta.

Idees clau

  • GPT-4 lidera amb una puntuació global de 4,01. Claude-2 obté un 2,49, GPT-3.5-turbo un 2,32. CodeLlama-34B, el model de codi obert més potent en el moment de la publicació, obté només un 0,96. Els models basats en API fan una mitjana global de 2,24 enfront del 0,42 dels de codi obert.
  • GPT-4 obté un 42,4% en OS, un 32,0% en Database i un 78,0% en House-Holding; la dispersió revela quins entorns premien el seguiment d'instruccions en lloc del raonament estructurat.
  • "Límit de tasques excedit" (Task Limit Exceeded) és el mode de fallada dominant: el 67,9% de les fallades del Knowledge Graph assoleixen el pressupost de passos abans de resoldre la tasca. Es tracta d'una fallada de raonament de llarg abast, no d'una fallada de coneixement.
  • Els errors de compliment del format representen el 53,3% de les fallades de les tasques de Database: l'agent produeix SQL sintàcticament incorrecte o envolta les consultes amb prosa que l'avaluador no pot analitzar.
  • La selecció d'accions no vàlides provoca el 64,1% de les fallades de House-Holding: l'agent nomena una acció que no està disponible en l'estat actual.
  • L'entrenament en codi té "impactes ambivalents en les tasques": ajuda en entorns de seguiment de procediments però pot perjudicar el raonament general en entorns amb molta càrrega de diàleg.

Què es manté vigent — i què no

L'elecció del disseny central —avaluació interactiva, de múltiples torns i en diversos entorns— és correcta i continua estant infrautilitzada. La majoria de les comparatives (benchmarks) de LLM encara mesuren la qualitat de la generació d'un sol torn; AgentBench insisteix encertadament que els agents han de seguir prenent decisions fins que es completi una tasca o s'esgoti el pressupost.

Dit això, la instantània ha quedat datada en un aspecte important. La bretxa entre GPT-4 (4,01) i el millor model de codi obert (0,96) semblava alarmant a mitjans de 2023, però s'ha tancat en gran mesura el 2025. Models com Llama 3.1 70B o Qwen 2.5 72B superen ara les barreres de seguiment d'instruccions i compliment de format que eren obstacles nous fa dos anys. Llegir l'article com una prova que "el codi obert no pot fer tasques d'agents" seria un error; llegir-lo com una prova que "el compliment del format i la coherència a llarg abast són els problemes difícils" encara és vàlid.

També hi ha una tensió entre amplitud i profunditat. Vuit entorns semblen exhaustius, però cadascun és relativament superficial. WebArena (Zhou et al., 2024) cobreix només la navegació web amb 812 tasques amb plantilles de llarg abast; OSWorld (Xie et al., 2024) avalua 369 tasques reals d'escriptori en Ubuntu i Windows. AgentBench pot donar-te un senyal transversal entre entorns, però no substituirà una comparativa específica d'un domini un cop hagis identificat l'entorn que t'interessa.

La taxonomia de modes de fallada de la Taula 4 és probablement la contribució més duradora. Els autors desglossen les fallades en Límit de tasques excedit, Error de format, Acció no vàlida i algunes altres. Aquests no són errors d'implementació, són debilitats estructurals en com els LLM mantenen l'estat, fan el seguiment de les accions disponibles i produeixen una sortida analitzable sota la pressió de múltiples torns. Qualsevol sistema d'agents seriós ha d'abordar-los.

Per què això és important per a la IA en finances

Els tres modes de fallada dominants es relacionen gairebé directament amb el que esperaria que fallés en un agent d'escriptura de Beancount.

Límit de tasques excedit és el mode de fallada en la conciliació del llibre major. Conciliar un tancament de període amb diversos comptes requereix comprovar els saldos d'obertura, fer coincidir dèbits i crèdits, identificar discrepàncies i proposar correccions —una cadena que pot arribar fàcilment als 10-20 passos. Un agent que assoleix el seu context o el seu límit de passos a mitja cadena i es rendeix no només falla de manera elegant; pot deixar el llibre major en un estat parcialment modificat.

Error de format és el mode de fallada en l'entrada de transaccions. Beancount té una sintaxi estricta: un assentament mal format (falta la moneda, sagnia incorrecta, etiqueta no vàlida) és un error d'anàlisi que corromp el fitxer. Un agent que genera prosa al voltant de la seva sortida de Beancount, o produeix una sintaxi que sembla correcta però en el format equivocat, és inútil. Aquest és el problema central de l'article CRITIC aplicat a un domini més estricte.

Acció no vàlida és el problema de seguretat en l'escriptura (write-back). Un agent de Beancount que operi sobre un llibre major real té un conjunt limitat d'operacions segures: afegir una transacció, corregir una etiqueta, moure un assentament. Al·lucinar una acció fora d'aquest conjunt —per exemple, suprimir un compte que encara té posicions obertes— és una fallada de correcció que podria no detectar-se fins a una auditoria.

La conclusió que "l'entrenament en codi té impactes ambivalents" també és rellevant. L'escriptura de Beancount està més a prop de la generació de codi que de la recuperació de coneixement, per la qual del fet que un model preentrenat en codi hauria de ser un encaix natural. Però si l'entrenament en codi degrada el seguiment del diàleg en entorns de diversos torns, és necessària una avaluació híbrida (com la d'AgentBench) per fer emergir aquests compromisos abans de la implementació.

Què llegir a continuació

  • WebArena (Zhou et al., 2024; arXiv:2307.13854): 812 tasques de navegació web en un entorn de navegador real; el seguiment de profunditat per al nivell web d'AgentBench.
  • OSWorld (Xie et al., 2024; NeurIPS 2024): comparativa d'entorn d'escriptori complet que inclou tasques del sistema de fitxers i de la interfície gràfica d'usuari; l'entorn OS d'OSWorld és un successor directe i més profund del nivell OS d'AgentBench.
  • TAU-bench (Yao et al., 2024): avalua agents en entorns d'API de venda al detall i aerolínies amb ús d'eines reals i simulació d'usuaris; la comparativa publicada més propera a un entorn de llibre major de Beancount.