FinMCP-Bench avalua sis models LLM en 613 tasques reals d'ús d'eines financeres amb el suport de 65 servidors MCP: el millor model obté un 3,08% de coincidència exacta en tasques de múltiples torns, revelant un col·lapse del rendiment de 20 vegades des d'escenaris d'una sola eina a múltiples torns.
FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.
FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.
Bloomberg va entrenar un LLM de 50.000 milions de paràmetres amb 569.000 milions de tokens de dades financeres i va superar els models generals en proves de referència de sentiment i raonament de taules; després, GPT-4 el va igualar sense cap preentrenament específic en finances. El que revela l'experiment de 10 milions de dòlars sobre els compromisos del preentrenament de domini, la tokenització de números i per què l'ús d'eines és més fiable que les funcions internes del model per als agents comptables.