Prejsť na hlavný obsah
Fintech

Všetko o Fintech

4 články
Financial technology research, platforms, and infrastructure for modern accounting systems

FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP

FinMCP-Bench vyhodnocuje šesť modelov LLM na 613 úlohách používania finančných nástrojov v reálnom svete s podporou 65 serverov MCP – najlepší model dosahuje 3,08 % mieru presnej zhody pri viacotáčkových úlohách, čo odhaľuje 20-násobný pokles výkonu pri prechode z jednonástrojových na viacotáčkové scenáre.

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

FinToolBench spája 760 živých finančných API nástrojov s 295 vykonateľnými dopytmi na benchmarking LLM agentov pri reálnych finančných úlohách — zisťuje, že konzervatívna 22,7 % miera vyvolania modelu GPT-4o prináša vyššiu kvalitu odpovedí (CSS 0,670) než agresívna 87,1 % miera TIR modelu Qwen3-8B, pričom nesúlad zámerov presahuje 50 % u všetkých testovaných modelov.

BloombergGPT a limity doménovo špecifických LLM vo financiách

Spoločnosť Bloomberg vytrénovala 50-miliardový LLM model na 569 miliardách tokenov finančných údajov a prekonala všeobecné modely v benchmarkoch sentimentu a uvažovania nad tabuľkami – potom ho GPT-4 vyrovnala bez akéhokoľvek špecifického finančného tréningu. Čo tento experiment za 10 miliónov dolárov prezrádza o kompromisoch doménového predtrénovania, tokenizácii čísel a o tom, prečo je používanie nástrojov pre účtovníckych agentov spoľahlivejšie než interné mechanizmy modelov.