Salta al contingut principal

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

TheAgentCompany és el benchmark d'agents empresarials més realista que he llegit fins ara en aquesta sèrie. Prové del grup de Graham Neubig a la CMU i va ser presentat a NeurIPS 2024, motivat per una mancança clara: els benchmarks existents proven la navegació web aïllada o la resolució de problemes a GitHub, però les tasques reals del lloc de treball requereixen que els agents naveguin per plataformes internes, enviïn missatges als companys, escriguin codi i executin programes dins d'una mateixa tasca. El llegeixo ara perquè és l'experiment controlat més proper que tenim sobre si els agents LLM poden funcionar realment com a companys de feina digitals en un entorn transcendental.

L'article

2026-06-19-theagentcompany-benchmarking-llm-agents-real-world-tasks

Xu et al. construeixen una empresa simulada autònoma: un espai de treball local més una intranet que executa instàncies reals de GitLab, OwnCloud, Plane (gestió de projectes) i RocketChat (missatgeria d'equip). L'entorn també inclou companys simulats —NPCs recolzats per LLM— perquè els agents puguin enviar missatges i rebre orientació durant la tasca. Les tasques s'engloben en set categories de rols: enginyeria de desenvolupament de programari (SDE), gestió de projectes, RRHH, ciència de dades, finances, administració i un calaix de sastre d'"altres". El total és de 175 tasques, seleccionades per 20 estudiants d'informàtica i enginyers de programari durant aproximadament 3.000 hores-persona al llarg de dos mesos.

L'avaluació utilitza un sistema de punts de control: cada tasca té fites intermèdies que valen una fracció de la puntuació total, a més d'una bonificació per la compleció total. Els avaluadors són deterministes (comprovant el contingut dels fitxers, les sortides del codi, l'estat de l'entorn) o basats en LLM (avaluant text lliure). Tots els models s'executen sota l'entorn d'agents OpenHands, que proporciona execució de codi, navegació web i accés a la terminal des d'un únic arnès configurable.

Idees clau

  • Gemini-2.5-Pro lidera amb un 30,3% de compleció total i un 39,3% de puntuació parcial; Claude-3.7-Sonnet el segueix amb un 26,3% / 36,4%; GPT-4o arriba només al 8,6% / 16,7%; Llama-3.1-405B aconsegueix un 7,4%.
  • El millor model fa una mitjana d'uns 27 passos d'agent i costa més de 4 $ per tasca, fins i tot per a tasques que els autors descriuen com més senzilles que la complexitat real del lloc de treball.
  • Les tasques de finances es troben entre les categories més difícils, juntament amb l'administració i la ciència de dades; les tasques d'SDE són les més fàcils de manera consistent, tot i requerir coneixements tècnics més especialitzats.
  • Predominen tres modes de fallada: navegar per interfícies d'usuari web complexes (especialment la suite d'ofimàtica d'OwnCloud), no saber utilitzar productivament els missatges dels companys ("manca d'habilitats socials") i abandonar tasques administratives de múltiples documents que requereixen referències creuades tedioses.
  • Els autors atribueixen l'avantatge de l'SDE directament al biaix de les dades d'entrenament: el preentrenament dels LLM està molt esbiaixat cap al codi i les dades de GitHub a causa dels benchmarks destacats i l'abundant senyal d'entrenament públic, de manera que els models generalitzen molt millor en tasques de programari que en fluxos de treball d'RRHH o finances.

Què se sosté — i què no

El disseny de l'entorn és realment impressionant. Executar GitLab, OwnCloud i RocketChat reals en lloc de prototips simulats significa que els agents s'enfronten a una complexitat d'interfície d'usuari autèntica: finestres emergents reals, fluxos d'autenticació i casos límit. La puntuació parcial basada en punts de control també és la decisió correcta: un èxit/error binari faria que la majoria de les tasques semblessin uniformement desesperançadores, ocultant on els agents realment progressen.

Dit això, val la pena assenyalar diverses debilitats. El més crític és que no hi ha una línia base de rendiment humà. Els autors ho reconeixen —les restriccions de recursos van impedir recollir temps o taxes d'èxit humans—, cosa que significa que no tenim denominador. Un 30% de compleció per part de l'agent sona malament, però sense saber si un humà passaria 20 minuts o 3 hores en la mateixa tasca, o si algunes tasques són realment ambigües, la xifra és difícil de contextualitzar.

La categoria de finances només té 12 tasques. És una mostra massa petita per treure conclusions sòlides sobre les fallades específiques de finances. Són els agents pitjors en finances per alguna propietat del raonament financer, o perquè les tasques de finances casualment impliquen més navegació per documents d'OwnCloud? L'article no pot desglossar-ho a aquesta escala, i els autors no ho intenten.

Els autors també reconeixen que les tasques "són generalment del costat més senzill a causa de la necessitat d'avaluar automàticament amb programes i casos de prova". Les tasques de comptabilitat o finances reals més difícils —preparar una conciliació de tancament d'exercici a partir de dades d'origen inconsistents, identificar problemes de compliment normatiu, produir un informe de gestió a través de diversos períodes del llibre major— són essencialment impossibles d'autoavaluar. El benchmark probablement infrarepresenta precisament les tasques que més importarien per als agents financers autònoms.

Per què això és important per a la IA financera

Els resultats aquí són alliçonadors d'una manera útil. Una taxa de compleció del 30% en tasques que els autors anomenen simplificades significa que els agents autònoms no estan ni de lluny operatius per a fluxos de treball comptables reals. La categoria de finances és específicament feble, i els modes de fallada dominants —interfícies d'usuari complexes, recuperació de múltiples documents, ruptura de la comunicació amb els homòlegs humans— són precisament les habilitats que necessitaria un agent d'automatització de Beancount: extreure dades de l'emmagatzematge de documents, creuar transaccions entre informes i fer preguntes aclaridores abans d'executar escriptures.

El cost de 4 $ per tasca per al millor model és una funció restrictiva. A aquest ritme, executar un agent en un tancament de mes rutinari que impliqui dotzenes de subtasques costaria centenars de dòlars sense cap garantia de fiabilitat. El patró de Gemini-2.0-Flash de tallar pèrdues d'hora —aconseguint un 19,0% de puntuació parcial a menys d'1 $ per tasca— suggereix que hi ha un valor d'enginyeria real en saber quan aturar-se i escalar el problema en lloc de cremar tokens en una trajectòria fallida.

Els NPCs de companys simulats són una primitiva de disseny interessant que es trasllada directament a la restricció real de Beancount: els agents que ignoren el feedback de l'usuari i procedeixen amb suposicions errònies són més perillosos que els agents que s'aturen i pregunten. La conclusió del benchmark que els models actuals no aconsegueixen extreure informació útil dels missatges dels companys hauria de ser una entrada directa de disseny per a qualsevol agent amb capacitat d'escriptura que interactuï amb un comptable humà a mitja sessió.

Què llegir a continuació

  • OpenHands: An Open Platform for AI Software Developers as Generalist Agents — el marc de treball d'agents que hi ha sota TheAgentCompany; arXiv:2407.16741, ICLR 2025. Entendre l'arquitectura CodeAct + navegació d'OpenHands clarifica quines capacitats de l'agent són la línia base enfront del que TheAgentCompany realment està provant.
  • DocFinQA: A Long-Context Financial Reasoning Dataset — amplia 7.437 preguntes de FinQA a documents complets de la SEC amb una mitjana de 123.000 paraules; arXiv:2401.06915, ACL 2024. Posa a prova directament el raonament financer en documents llargs que les 12 tasques financeres de TheAgentCompany no poden mostrar adequadament.
  • Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Una enquesta del 2025 sobre el panorama de l'avaluació d'agents que situa TheAgentCompany en context al costat de WebArena, OSWorld i SWE-bench i rastreja com les opcions de disseny dels benchmarks configuren el que podem concloure sobre la capacitat dels agents.