FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP
L'MCP s'ha convertit en l'estàndard de connexió de facto per a l'ús d'eines d'LLM: Anthropic el va introduir a finals de 2024 i, a principis de 2026, tots els principals proveïdors de models l'havien adoptat. FinMCP-Bench (arXiv:2603.24943, ICASSP 2026) és el primer benchmark construït sobre servidors d'eines MCP reals específicament per a agents financers, i ha arribat en el moment just per dir-nos si aquesta "fontaneria" estandarditzada ajuda realment els agents a fer una feina financera útil.
L'article
Jie Zhu, Yimin Tian i els seus col·legues de l'equip Alibaba Cloud Qwen DianJin, YINGMI Wealth Management i la Universitat de Soochow presenten FinMCP-Bench, una suite d'avaluació de 613 mostres que cobreix 10 categories d'escenaris financers i 33 subescenaris. Les eines no són simulades: 65 servidors d'eines financeres reals compatibles amb MCP donen suport al benchmark, extrets dels registres de producció reals de l'assistent financer Qieman APP. Els autors categoritzen les mostres en tres tipus: 145 d'eina única, 249 multi-eina i 219 de múltiples torns. Proven sis models: la família Qwen3 en recomptes de paràmetres de 4B, 30B i 235B (tots amb pensament estès), a més de DeepSeek-R1, GPT-OSS-20B i Seed-OSS-36B. Les mètriques principals d'avaluació són la Precisió de l'eina, l'Exhaustivitat de l'eina (Recall), l'F1 de l'eina i una Taxa de Coincidència Exacta (EMR) que requereix que cada crida d'eina en una seqüència sigui exactament correcta.
Idees clau
- L'MCP com a substrat d'avaluació: l'ús de definicions reals de servidors MCP en lloc d'esquemes d'API sintètics tanca una bretxa important entre l'avaluació del benchmark i el que els agents realment afronten en sistemes financers desplegats.
- Divisió de dificultat en tres vies: les mostres d'eina única, multi-eina i de múltiples torns no són només diferències de quantitat; exposen modes de fallada qualitativament diferents.
- Col·lapse en els múltiples torns: el millor model (Qwen3-235B) aconsegueix un 60% d'EMR en eina única, un 10,62% d'EMR en multi-eina i un 3,08% d'EMR en múltiples torns. La caiguda d'un sol torn a múltiples torns és de 20 vegades.
- L'F1 de l'eina és més permissiu: el mateix model puntua un 66,85%, 69,42% i 41,56% de TF1 en els tres escenaris, cosa que demostra que els models sovint trien les eines adequades però fallen en l'ordre, la parametrització o el seguiment de la conversa.
- L'exhaustivitat supera la precisió en l'eina única: els models tendeixen a cridar eines en excés quan no estan segurs en lloc de cridar-ne de menys, que és el mode de fallada més segur per a tasques financeres, però que encara implica crides d'API malbaratades i soroll en la traça de raonament.
- Escalat de mida no monotònic: Qwen3-30B no supera consistentment Qwen3-4B en tots els subescenaris, trencant l'assumpció que el model més gran sempre guanya per a l'ús d'eines en múltiples passos.
Què es manté i què no
L'ús de registres de producció reals com a font per als exemples d'eina única és l'elecció metodològica més sòlida aquí. Fonamenta el benchmark en el comportament real de l'usuari en lloc d'escenaris inventats pels investigadors, cosa que és rara en la literatura d'IA per a finances. Les mostres multi-eina i de múltiples torns s'extenen sintèticament utilitzant grafs de dependències i prompts de joc de rol, la qual cosa és raonable donat el cost de l'etiquetatge, però introdueix un risc: el procés de síntesi tendeix a produir consultes més netes i telegrafiades que les que escriuen els usuaris reals. El 3,08% d'EMR en múltiples torns és alarmant, però s'ha d'interpretar amb cura: l'EMR requereix que la seqüència completa sigui exactament correcta, per la qual cosa una sola crida d'eina intermèdia incorrecta fa fallar tota la tasca. Aquest és un estàndard de producció estricte i potser poc realista; les mètriques de crèdit parcial com TF1 expliquen una història més matisada.
El que l'article no aborda: no hi ha cap anàlisi de si la bretxa de rendiment és principalment un problema de comprensió de l'entrada (el model interpreta malament el que l'usuari vol), un problema de format de sortida (intenció correcta però crida d'eina mal formada) o un problema de raonament (conclusions intermèdies errònies). Sense aquesta descomposició, és difícil saber on invertir l'esforç d'enginyeria. L'article també avalua els models de forma aïllada; no hi ha cap prova de si l'addició d'un pas de verificació o reflexió canvia el panorama dels múltiples torns.
El benchmark també està profundament lligat a les 65 eines específiques de Qieman, cosa que limita com es transfereixen els resultats a altres plataformes financeres amb inventaris d'eines diferents.
Per què això és important per a la IA financera
FinMCP-Bench és l'avaluació publicada més propera al que faria realment un agent d'escriptura (write-back) de Beancount: rebre una sol·licitud de l'usuari, identificar quina eina (o cadena d'eines) s'aplica, invocar-les en ordre i gestionar els torns de seguiment. L'EMR de múltiples torns del 3,08% és un bany de realitat. Un agent de Beancount que gestiona una correcció del llibre major en diversos passos —per exemple, reclassificar un conjunt de transaccions entre comptes en un interval de dates, després conciliar i després generar un informe— és exactament el tipus de tasca de múltiples torns i multi-eina en què els models actuals fallen gairebé universalment segons els estàndards de coincidència exacta.
L'enfocament MCP és directament rellevant: l'API de Python de Beancount, la interfície beanquery i la capa REST de Fava podrien estar totes embolicades com a servidors MCP. FinMCP-Bench ens diu que el protocol no és el coll d'ampolla, sinó que ho és el raonament sobre les seqüències de crides d'eines.
La troballa que l'exhaustivitat de l'eina supera la precisió (els models fan crides en excés) també és important per a la seguretat de l'escriptura: un agent que crida l'eina de mutació del llibre major quan només calia una lectura podria corrompre el llibre major silenciosament. Les mètriques d'avaluació esbiaixades cap a la precisió, no cap a l'exhaustivitat, haurien de ser el senyal de seguretat principal per als agents d'escriptura.
Què llegir a continuació
- JSONSchemaBench (arXiv:2501.10868) — avalua la fiabilitat de la sortida estructurada en 10.000 esquemes JSON; aborda directament si els fallos de format de crida d'eines a FinMCP-Bench són un problema de descodificació restringida.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — el marc de formació fonamental per a l'ús d'eines respecte al qual es posiciona FinMCP-Bench; entendre la seva exploració d'arbres de cerca primer en profunditat clarifica què aporta la metodologia de registres de producció de FinMCP-Bench.
- WildToolBench (arXiv:2604.06185) — avalua l'ús d'eines en consultes d'usuaris reals en llibertat; la seva troballa que cap model supera el 15% de precisió en el comportament de l'usuari real complementa l'enfocament de registres de producció de FinMCP-Bench.
