FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real
La majoria de les comparatives d'IA per a finances proven si un model pot llegir un document. FinToolBench prova si un model pot fer alguna cosa: cridar una API en viu, obtenir dades de mercat actuals i retornar una resposta correcta. Aquesta és la bretxa que importa per a qualsevol sistema que intenti automatitzar el treball financer real, i és la bretxa que he estat esperant que algú tanqués amb rigor.
L'article
Jiaxuan Lu i els seus col·legues presenten FinToolBench (arXiv:2603.08262, març de 2026) com el que afirmen que és la primera comparativa executable en el món real per avaluar agents d'aprenentatge d'eines financeres. El plantejament és directe: les avaluacions actuals d'IA financera se centren en preguntes i respostes estàtiques sobre documents, mentre que les comparatives generals d'ús d'eines com ToolLLM tracten les finances com una altra categoria d'API sense restriccions de compliment específiques del domini. FinToolBench intenta omplir l'espai entre aquests dos modes de fallada.
La comparativa combina 760 eines financeres executables (261 punts finals en viu de RapidAPI i 499 interfícies d'AkShare) amb 295 consultes d'avaluació curades rigorosament, dividides en 166 casos d'una sola eina i 129 casos multieina. Les eines abasten els dominis d'accions, bons, fons, divises, derivats, macro i cripto. Crucialment, aquestes són API reals que es poden cridar, no simulacions (stubs). Els autors també presenten FATR (Finance-Aware Tool Routing), un agent de referència que utilitza la recuperació BGE-M3 (els 20 millors candidats), targetes d'eines anotades amb atributs financers i un planificador ReAct conscient de les restriccions limitat a cinc passos.
Idees clau
- L'execució no és el coll d'ampolla; el raonament sobre els resultats ho és. GPT-4o té la puntuació més alta de Conditional Soft Score (CSS = 0,670), la qual cosa significa que dóna respostes correctes quan crida amb èxit una eina, però només invoca eines el 22,7% del temps (TIR = 0,227). Qwen3-8B crida eines el 87,1% del temps, però obté la resposta correcta només el 40,4% del temps quan té èxit.
- El desajust d'intencions és la fallada de compliment dominant. L'IMR (Intent Mismatch Rate) supera el 50% en la majoria dels models, cosa que significa que els agents emeten habitualment crides d'intenció transaccional quan la consulta només demana una cerca informativa. Això és un problema greu en contextos financers regulats.
- La injecció d'atributs financers ajuda al compliment sense perjudicar la capacitat. Les targetes d'eines del referent FATR —anotant cada eina amb la puntualitat, el tipus d'intenció i el domini regulador— redueixen les crides de dades obsoletes (TMR) i les violacions de domini (DMR) sense degradar significativament la taxa d'invocació.
- Les consultes multieina exposen la bretxa de fiabilitat. Les 129 consultes multieina requereixen encadenar crides i passar resultats entre passos; el rendiment cau substancialment en comparació amb els casos d'una sola eina, en línia amb les troballes de FinTrace i TheAgentCompany.
- Els models petits poden superar en invocacions els grans, però no en raonament. El TIR de 0,871 de Qwen3-8B enfront del 0,227 de GPT-4o mostra que els models més petits són més "de gallet fàcil", però el CER (taxa d'execució condicional, és a dir, TESR/TIR) de 0,339 per a Qwen3-8B enfront de 0,618 per a GPT-4o revela que GPT-4o és molt més precís quan decideix cridar una eina.
Què s'aguanta i què no
La decisió de la comparativa d'utilitzar API realment en viu i executables és la seva contribució principal, i és una de real. Les API simulades han estat el secret brut de les comparatives d'ús d'eines: les 16.000 API de ToolLLM semblen impressionants fins que t'adones que l'avaluació utilitza un LLM com a jutge de si una crida "hauria funcionat". FinToolBench ho evita.
Les mètriques de compliment (TMR, IMR, DMR) són conceptualment correctes —els agents de finances han de conèixer la diferència entre obtenir el preu de tancament d'ahir i iniciar una operació—, però la descripció de l'article sobre com s'apliquen aquestes classificacions és escassa. No està clar si les etiquetes de referència per al tipus d'intenció (informativa vs. transaccional) van ser verificades per experts legals o de compliment, o simplement assignades pels autors del conjunt de dades. Això importa molt a la pràctica.
La llista de models també és estranyament estreta: Doubao-Seed-1.6, Qwen3-8B, GLM-4.7-Flash i GPT-4o. Ni Claude Sonnet ni Gemini 2.5, que haurien estat comparacions naturals. La taula de resultats mostra que GPT-4o és un cas atípic de precisió però baixa cobertura; m'agradaria saber si el comportament d'ús d'eines de Claude s'acosta més al patró conservador de GPT-4o o a l'agressiu de Qwen3-8B.
El conjunt d'avaluació de 295 consultes és petit per als estàndards de les comparatives modernes. Amb 760 eines, una taxa de cobertura de 295 consultes significa que la majoria de les eines no es proven mai. L'article no informa d'estadístiques de cobertura per domini, cosa que significa que les xifres principals podrien estar impulsades per un subconjunt de dominis ben coberts com les accions i la macroeconomia.
Per què això és important per a la IA en finances
Els agents d'escriptura (write-back) de Beancount —qualsevol agent que cridi bean-add, apliqui un pegat a un fitxer de llibre major o consulti beanquery— s'enfronten exactament als mateixos modes de fallada que revela FinToolBench. El problema del desajust d'intencions es tradueix directament: un agent de Beancount que emet una crida d'escriptura quan l'usuari ha fet una pregunta de lectura té la mateixa signatura de fallada que una violació de l'IMR. La dimensió de la puntualitat s'assigna al problema de cridar un estat del llibre major emmagatzemat a la memòria cau quan l'usuari espera el saldo actual.
La tensió entre precisió i cobertura (GPT-4o vs Qwen3-8B) també és directament rellevant. Per a l'escriptura de Beancount, m'estimaria més tenir el comportament de crida conservador de GPT-4o —baixa TIR però alt CER i CSS— que un model d'alta invocació que sovint executa l'eina incorrecta. Les escriptures falses són molt més costoses que les operacions nul·les (no-ops).
L'enfocament FATR d'anotar eines amb atributs de compliment en lloc de confiar en el model per inferir-los és un patró de disseny que val la pena adoptar. Envoltar les eines de la CLI de Beancount amb metadades explícites sobre si una crida és de només lectura o de modificació, i si afecta l'estat actual o l'arxivat del llibre major, és la mateixa idea aplicada a un abast més petit.
Què llegir a continuació
- FinTrace (arXiv:2604.10015) — avaluació a nivell de trajectòria en 34 categories de tasques financeres amb 9 mètriques; estén directament l'avaluació d'una sola crida de FinToolBench a seqüències de diversos passos, i ajusta Qwen-3.5-9B amb DPO per millorar el raonament intermedi.
- FinMCP-Bench (arXiv:2603.24943) — 613 mostres sobre 65 eines financeres basades en MCP provant la invocació d'una sola eina, multieina i de diversos torns; el plantejament MCP és directament rellevant per a les interfícies d'eines de Beancount.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — l'article de ToolBench contra el qual FinToolBench es posiciona explícitament; entendre què pot i què no pot mesurar el referent d'API simulades aclareix quant aporta realment l'executabilitat de FinToolBench.
