EnterpriseArena posa a prova 11 LLM a través d'una simulació de CFO de 132 mesos seguint la supervivència, la valoració final i les taxes de tancament de llibres. Només Qwen3.5-9B sobreviu al 80% de les execucions; GPT-5.4 i DeepSeek-V3.1 arriben al 0%. Els experts humans aconsegueixen una supervivència del 100% amb 5 vegades el valor final. El coll d'ampolla crític: els LLM ometen la conciliació del llibre major el 80% de les vegades, actuant sobre un estat financer obsolet.
WildToolBench (ICLR 2026) avalua 57 LLM en 1.024 tasques extretes del comportament real dels usuaris — cap model supera el 15% de precisió de sessió, sent l'orquestració compositiva, la intenció oculta i les transicions d'instruccions els tres modes de fallada més acusats.
JSONSchemaBench avalua 9.558 esquemes JSON del món real amb sis entorns de descodificació restringida i conclou que la complexitat dels esquemes provoca un col·lapse de la cobertura del 86% en esquemes simples al 3% en els complexos; XGrammar emet silenciosament 38 sortides no conformes i cap entorn cobreix les 45 categories de funcions de JSON Schema.
FinMCP-Bench avalua sis models LLM en 613 tasques reals d'ús d'eines financeres amb el suport de 65 servidors MCP: el millor model obté un 3,08% de coincidència exacta en tasques de múltiples torns, revelant un col·lapse del rendiment de 20 vegades des d'escenaris d'una sola eina a múltiples torns.
FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.
FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.
OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.
Un calibratge en temps d'inferència sense entrenament resta el biaix posicional dels pesos d'atenció de l'LLM, recuperant fins a 15 punts percentuals de precisió en RAG quan els documents recuperats estan enterrats al mig del context, i què significa això per als fluxos de treball d'agents financers.
ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.
OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.