Prejsť na hlavný obsah

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

FinTrace (arXiv:2604.10015) prichádza týždeň po FinToolBench, ktorý som zaznamenal minule, a tieto dva články spolu priamo komunikujú. Zatiaľ čo FinToolBench meria, či agent volá správne nástroje, FinTrace kladie ťažšiu otázku: aj keď agent zavolá správne nástroje, skutočne uvažuje nad výsledkami? Tento rozdiel je jadrom celého článku a podľa môjho názoru aj jadrom celého problému agenta pre spätný zápis do Beancountu.

O článku

2026-07-06-fintrace-trajectory-level-evaluation-llm-tool-calling-financial-tasks

Cao a kol. predstavujú FinTrace, benchmark s 800 expertmi anotovanými trajektóriami, ktoré pokrývajú 34 kategórií finančných úloh z reálneho sveta v troch úrovniach náročnosti: ľahkej, strednej a ťažkej. Autori postavili svoje hodnotenie na systéme deviatich metrík usporiadaných do štyroch osí: správnosť akcií (F1 skóre volania nástrojov, relevancia úlohy), efektivita vykonávania (efektivita krokov, skóre redundancie), kvalita procesu (logický postup, využitie informácií, skóre progresu) a kvalita výstupu (miera úspešnosti úlohy, kvalita finálnej odpovede). Vyhodnotili 13 modelov LLM a zverejnili aj FinTrace-Training, súbor údajov s 8 196 vybranými preferenčnými trajektóriami na doladenie.

Hlavným tvrdením je, že najvýkonnejšie (frontier) modely zvládli výber nástrojov, ale systematicky zlyhávajú v ťažšom kroku: v používaní toho, čo nástroje vrátia. Benchmark to skúma pomocou 5-bodovej stupnice pre využitie informácií, logický postup a skóre progresu, plus algoritmické metriky pre F1 nástrojov a efektivitu krokov.

Kľúčové myšlienky

  • Najlepšie fungujúci model, Claude-Opus-4.6, dosahuje F1 skóre volania nástrojov 0,896 — čo je silný výber — ale získava len 3,23/5 vo využití informácií, čo je najslabšia zo štyroch metrík zameraných na výstup.
  • Claude-Opus-4.6 má mieru úspešnosti úloh 2,65/5 a kvalitu konečnej odpovede 3,34/5; ani tie najlepšie modely nekonzistentne produkujú správne a úplné odpovede.
  • Qwen-3.5-9B vykazuje degeneratívny vzorec: takmer dokonalú efektivitu krokov (1,000) a redundanciu (1,000), pretože takmer nevolá žiadne nástroje, čo sa odráža v F1 skóre volania nástrojov 0,109. Efektívne, ale nepoužiteľné.
  • Tréning na FinTrace-Training zlepšuje metriky medziprocesov (Logický postup stúpa z 2,29 na 2,56 pomocou DPO; skóre progresu z 2,00 na 2,30), ale kvalita konečnej odpovede zostáva obmedzená úzkym hrdlom — žiadny variant pri malých modeloch výrazne neprekročil priemernú hodnotu 1,21 na stupnici 1–5.
  • DPO prekonáva SFT v potláčaní režimov katastrofálneho zlyhania: podiel skóre logického postupu na úrovni 1 klesá z 11,9 % (SFT) na 9,5 % (DPO).
  • Univerzálne najhoršou podkategóriou vo všetkých 13 modeloch je Reasoning QA (Uvažovanie pri otázkach a odpovediach), kde Claude-Opus-4.6 dosahuje celkovo iba 0,62 — tvrdý strop, ktorý zdieľajú aj tie najsilnejšie modely.

Čo obstojí — a čo nie

Hlavné zistenie — že výber nástrojov a uvažovanie nad nástrojmi sú oddeliteľné procesy — je dobre odôvodnené a systém štyroch osí metrík je skutočným prínosom. Predchádzajúce benchmarky ako FinToolBench končia pri stopách vykonávania; FinTrace pridáva metriky kvality procesu posudzované modelmi LLM, ktoré odhaľujú, čo sa deje medzitým. Cohenova kapa (κ) medzi hodnotiteľmi 0,89 na vzorke 100 overení je pre benchmark čiastočne postavený na hodnoteniach LLM povzbudivá.

To znamená, že niekoľko metodologických rozhodnutí obmedzuje to, čo môžem z týchto čísel brať ako bernú mincu. 34 kategórií úloh nie je v hlavnom článku vymenovaných — sú odsunuté do prílohy B — takže neviem posúdiť, nakoľko sú reprezentatívne pre reálnu finančnú prax. Úrovne obtiažnosti sú definované percentilovými poradiami v rámci vlastného fondu dopytov benchmarku, čo je argumentácia v kruhu: „ťažké“ znamená len nezvyčajné v porovnaní s ostatnými 800 trajektóriami, nie ťažké v absolútnom zmysle.

Analýza doladenia (fine-tuning) je frustrujúca. Tréning 9B modelu na FinTrace-Training zlepšuje priebežné uvažovanie, ale kvalita finálnej odpovede zostáva nefunkčná. Článok to pripisuje „odpojeniu“ medzi procesom a výstupom, ale nevysvetľuje prečo. Najpravdepodobnejšie vysvetlenie — že 9B modelu chýba schopnosť vybavovania si faktov a aritmetická kapacita potrebná pre finančné úlohy bez ohľadu na kvalitu trajektórie — zostáva neriešené. Uvádzanie výsledkov DPO len pre Qwen-3.5-9B tiež znemožňuje zistiť, či väčšie modely profitujú viac.

Som skeptický aj voči celkovej agregácii skóre. Spájanie algoritmických metrík (F1 ∈ [0,1]) s hodnoteniami LLM na 1–5 Likertových škálach pomocou normalizácie na [0,1] a spriemerovania spája veľmi odlišné typy zlyhaní. Model, ktorý volá úplne nesprávne nástroje, nie je pokazený rovnakým spôsobom ako model, ktorý volá správne nástroje a potom ignoruje ich výstup.

Prečo je to dôležité pre finančnú AI

Hlavné zistenie sa priamo mapuje na problém spätného zápisu do Beancountu. Agent, ktorý spoľahlivo volá správne CLI nástroje Beancountu, ale potom nesprávne interpretuje výstup — povedzme, že analyzuje odpoveď zo súvahy a zaúčtuje ju na nesprávny účet — je horší ako žiadna automatizácia: produkuje sebavedomo nesprávne účtovné zápisy, ktoré sa bežnému kontrolórovi javia ako správne.

Metrika využitia informácií je tá, ktorú by som pri akomkoľvek agentovi pre Beancount sledoval najpozornejšie. Skutočnosť, že najlepší dostupný model dosahuje v kontrolovanom finančnom benchmarku skóre 3,23/5, by mala byť určujúcim obmedzením pre akékoľvek produkčné nasadenie. Hovorí to v prospech povinnej ľudskej kontroly každej operácie spätného zápisu, aspoň kým neuvidíme toto skóre konzistentne nad 4,0.

FinTrace tiež potvrdzuje to, čo naznačil ReDAct minulý týždeň: správna architektúra nie je end-to-end uvažovanie LLM, ale pipeline, ktorá externalizuje overovanie. Agent, ktorý dobre vyberá nástroje (Tool F1 ~ 0,9) a potom odovzdá výsledky samostatnému overovaciemu kroku pred vykonaním akcie, je obhájiteľnejší ako ten, ktorý sa pokúša uvažovať nad nespracovaným výstupom nástroja v jednom priechode.

Čo si prečítať ďalej

  • FinMCP-Bench (arXiv:2603.24943): sprievodný článok využívajúci MCP ako štandard rozhrania nástrojov, ďalší na zozname čítania — priamo porovnateľný s FinTrace, ale postavený na inej protokolovej vrstve.
  • „Benchmarking LLM Tool-Use in the Wild“ (arXiv:2604.06185): objavil sa súčasne a vyhodnocuje volanie nástrojov mimo financií; objasnil by, či je medzera vo využívaní informácií špecifická pre doménu alebo všeobecná.
  • „Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA“ (arXiv:2604.05387): zameriava sa na rovnaké režimy zlyhania volania nástrojov z pohľadu tréningových dát a môže vysvetliť, čo chýba DPO v rámci FinTrace-Training.