FinMCP-Bench evalueert zes LLM-modellen op 613 praktijkgerichte financiële taken voor het gebruik van tools, ondersteund door 65 MCP-servers — het beste model scoort 3,08% exacte overeenkomst bij multi-turn taken, wat een prestatie-instorting van 20× laat zien van enkelvoudige naar multi-turn scenario's.
FinTrace benchmarkt 13 LLM's op 800 door experts geannoteerde trajecten voor financiële taken via 9 statistieken. De resultaten tonen aan dat frontier-modellen sterke tool-selectie behalen (F1 ~0,9), maar slechts 3,23/5 scoren op informatiebenutting — de stap waarin agents redeneren over de resultaten van tools.
FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.
Bloomberg trainde een LLM met 50 miljard parameters op 569 miljard tokens aan financiële gegevens en versloeg algemene modellen op benchmarks voor sentiment en tabelredenering — waarna GPT-4 dit evenaarde zonder enige financiële pre-training. Wat het experiment van $10 miljoen onthult over de afwegingen bij domein-pre-training, de tokenisatie van getallen en waarom het gebruik van tools betrouwbaarder is dan interne model-logica voor boekhoudagenten.