FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP
MCP sa stal de facto štandardom pre prepojenie nástrojov LLM – spoločnosť Anthropic ho predstavila koncom roka 2024 a do začiatku roka 2026 ho prijali všetci hlavní poskytovatelia modelov. FinMCP-Bench (arXiv:2603.24943, ICASSP 2026) je prvý benchmark postavený na skutočných serveroch nástrojov MCP špeciálne pre finančných agentov a prišiel práve v správnom čase, aby nám povedal, či toto štandardizované prepojenie skutočne pomáha agentom vykonávať užitočnú finančnú prácu.
O článku
Jie Zhu, Yimin Tian a kolegovia z tímu Alibaba Cloud Qwen DianJin, YINGMI Wealth Management a univerzity Soochow University predstavujú FinMCP-Bench, vyhodnocovaciu sadu so 613 vzorkami, ktorá pokrýva 10 kategórií finančných scenárov a 33 subscenárov. Nástroje nie sú simulované – benchmark podporuje 65 skutočných finančných serverov kompatibilných s MCP, čerpaných zo skutočných produkčných logov finančného asistenta aplikácie Qieman APP. Autori kategorizujú vzorky do troch typov: 145 s jedným nástrojom, 249 s viacerými nástrojmi a 219 viacotáčkových. Testujú šesť modelov: rodinu Qwen3 s počtom parametrov 4B, 30B a 235B (všetky s rozšíreným premýšľaním), plus DeepSeek-R1, GPT-OSS-20B a Seed-OSS-36B. Hlavnými metrikami vyhodnotenia sú presnosť nástroja (Tool Precision), úplnosť nástroja (Tool Recall), Tool F1 a miera presnej zhody (Exact Match Rate – EMR), ktorá vyžaduje, aby každé volanie nástroja v sekvencii bolo úplne správne.
Kľúčové myšlienky
- MCP ako základ pre vyhodnocovanie: používanie skutočných definícií serverov MCP namiesto syntetických schém API odstraňuje veľkú priepasť medzi vyhodnocovaním benchmarkov a tým, čomu agenti skutočne čelia v nasadených finančných systémoch.
- Trojité rozdelenie náročnosti: vzorky s jedným nástrojom, viacerými nástrojmi a viacotáčkové vzorky nie sú len kvantitatívne rozdiely – odhaľujú kvalitatívne odlišné chybové režimy.
- Kolaps pri viacerých otáčkach: najlepší model (Qwen3-235B) dosahuje 60 % EMR pri jednom nástroji, 10,62 % EMR pri viacerých nástrojoch a 3,08 % EMR pri viacerých otáčkach. Pokles z jednej otáčky na viacotáčkový scenár je 20-násobný.
- Tool F1 je zhovievavejší: ten istý model dosahuje 66,85 %, 69,42 % a 41,56 % TF1 v týchto troch nastaveniach – čo ukazuje, že modely často vyberú správne nástroje, ale zlyhávajú v poradí, parametrizácii alebo sledovaní konverzácie.
- Úplnosť (Recall) víťazí nad presnosťou pri jednom nástroji: modely majú tendenciu volať nástroje nadmerne, keď si nie sú isté, namiesto nedostatočného volania, čo je bezpečnejší chybový režim pre finančné úlohy, ale stále to znamená zbytočné volania API a šum v stope uvažovania.
- Nemonotónne škálovanie podľa veľkosti: Qwen3-30B neprekonáva Qwen3-4B konzistentne vo všetkých subscenároch, čím vyvracia predpoklad, že väčší model pri viacstupňovom používaní nástrojov vždy vyhráva.
Čo obstojí — a čo nie
Použitie skutočných produkčných logov ako zdroja pre príklady s jedným nástrojom je tu najsilnejším metodologickým rozhodnutím. Uzemňuje to benchmark v skutočnom správaní používateľov namiesto scenárov vymyslených výskumníkmi, čo je v literatúre o finančnej AI zriedkavé. Viacnástrojové a viacotáčkové vzorky sú synteticky rozšírené pomocou grafov závislostí a promptov na hranie rolí, čo je vzhľadom na náklady na označovanie rozumné, ale prináša to riziko: proces syntézy má tendenciu vytvárať čistejšie a priamočiarejšie dopyty, než aké píšu skutoční používatelia. Hodnota 3,08 % EMR pri viacotáčkových úlohách je znepokojujúca, ale mala by sa interpretovať opatrne – EMR vyžaduje, aby celá sekvencia bola úplne správna, takže jedno nesprávne medzipriľahlé volanie nástroja znamená zlyhanie celej úlohy. To je prísny a pravdepodobne nereálny produkčný štandard; metriky s čiastočným kreditom ako TF1 rozprávajú nuansovanejší príbeh.
Čo článok nerieši: chýba analýza toho, či je výkonnostná medzera primárne problémom v pochopení vstupu (model si zle vysvetlí, čo používateľ chce), problémom s formátovaním výstupu (správny zámer, ale zle sformátované volanie nástroja) alebo problémom v uvažovaní (nesprávne priebežné závery). Bez tohto rozkladu je ťažké vedieť, kam investovať inžinierske úsilie. Článok tiež vyhodnocuje modely izolovane; chýba test, či pridanie kroku overenia alebo reflexie mení obraz pri viacotáčkových úlohách.
Benchmark je tiež hlboko spätý so špecifickými 65 nástrojmi spoločnosti Qieman, čo obmedzuje prenos výsledkov na iné finančné platformy s inými sadami nástrojov.
Prečo je to dôležité pre finančnú AI
FinMCP-Bench je najbližšie publikované vyhodnotenie toho, čo by skutočne robil agent pre zápis do Beancountu: prijal by požiadavku používateľa, identifikoval, ktorý nástroj (alebo reťazec nástrojov) sa má použiť, vyvolal by ich v poradí a spracoval by následné otázky. Viacotáčkové EMR na úrovni 3,08 % je tvrdým vytriezvením. Beancount agent, ktorý spravuje viacstupňovú opravu účtovnej knihy – povedzme reklasifikáciu sady transakcií medzi účtami v časovom rozsahu, následné odsúhlasenie a vygenerovanie reportu – je presne ten druh viacotáčkovej a viacnástrojovej úlohy, pri ktorej súčasné modely podľa štandardov presnej zhody takmer univerzálne zlyhávajú.
Rámec MCP je priamo relevantný: Python API Beancountu, rozhranie beanquery a REST vrstva favy by sa dali zabaliť ako MCP servery. FinMCP-Bench nám hovorí, že protokol nie je úzkym hrdlom – ním je uvažovanie nad sekvenciami volaní nástrojov.
Zistenie, že úplnosť (recall) nástrojov prevyšuje presnosť (modely volajú nástroje nadmerne), je dôležité aj pre bezpečnosť zápisu: agent, ktorý zavolá nástroj na zmenu účtovnej knihy, keď bolo potrebné iba čítanie, by mohol ticho poškodiť účtovnú knihu. Primárnym bezpečnostným signálom pre agentov so schopnosťou zápisu by mali byť metriky zamerané na presnosť, nie na úplnosť.
Čo si prečítať ďalej
- JSONSchemaBench (arXiv:2501.10868) – vyhodnocuje spoľahlivosť štruktúrovaného výstupu na 10 000 schémach JSON; priamo rieši, či sú zlyhania formátovania volaní nástrojov vo FinMCP-Bench problémom s obmedzeným dekódovaním.
- ToolLLM (arXiv:2307.16789, ICLR 2024) – základný rámec pre trénovanie používania nástrojov, voči ktorému sa FinMCP-Bench vymedzuje; pochopenie jeho prieskumu stromu vyhľadávania do hĺbky objasňuje, čo pridáva metodológia FinMCP-Bench založená na produkčných logoch.
- WildToolBench (arXiv:2604.06185) – vyhodnocuje používanie nástrojov na reálnych dopytoch používateľov v praxi; jeho zistenie, že žiadny model nepresahuje 15 % presnosť pri reálnom správaní používateľov, dopĺňa prístup FinMCP-Bench založený na produkčných logoch.
