Prejsť na hlavný obsah

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Trajektória benchmarkov finančných LLM sa neustále rozširuje a Fin-RATE je doteraz najjasnejším príkladom toho, čo sa stane, keď od modelov konečne žiadame to, čo robia skutoční analytici: sledovať spoločnosť nielen v rámci jedného výkazu, ale počas viacerých období a v porovnaní s konkurentmi v odvetví.

O dokumente

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, publikovaný vo februári 2026 Yidongom Jiangom, Junrongom Chenom a kolegami z Yale a spolupracujúcich inštitúcií, predstavuje benchmark vytvorený z 2 472 výkazov SEC od 43 spoločností v 36 odvetviach z rokov 2020 – 2025. Benchmark organizuje 7 500 odborne zostavených dvojíc otázok a odpovedí do troch typov úloh, ktoré odzrkadľujú pracovné postupy profesionálnych analytikov: DR-QA (detail a uvažovanie v rámci jedného výkazu), EC-QA (porovnanie dvoch spoločností v rámci spoločnej témy) a LT-QA (longitudinálne sledovanie tej istej firmy naprieč výkaznými obdobiami). Každý typ úlohy obsahuje 2 500 otázok. Hodnotenie zahŕňa 17 modelov LLM – uzavreté modely vrátane GPT-4.1 a GPT-5, open-source všeobecné modely ako DeepSeek-V3 a Llama-3.3-70B a finančne špecializované modely ako Fin-R1, Fino1-14B, FinanceConnect-13B a TouchstoneGPT-7B. Bodovanie využíva zjednotený rámec LLM-as-Judge s tromi nezávislými sudcami (GPT-5, DeepSeek-V3.2, Qwen3-235B), ktorí hodnotia každú odpoveď z hľadiska správnosti a piatich analytických dimenzií.

Kľúčové myšlienky

  • Výkon klesá so zvyšujúcou sa komplexnosťou úloh: presnosť klesá o 18,60 % pri prechode z DR-QA (jeden dokument) na LT-QA (longitudinálne sledovanie) a o 14,35 % z DR-QA na EC-QA (medzi entitami), v priemere u všetkých 17 modelov.
  • GPT-5 s vyhľadávaním na webe je najlepším modelom, avšak jeho maximálna presnosť sa pohybuje len na úrovni 43 – 44 % vo všetkých troch typoch úloh – čo je žalostné pre benchmark, ktorý má odrážať prácu skutočných analytikov.
  • Fin-R1, finančne špecializovaný model uvažovania, dosahuje 57,48 % v DR-QA, ale prepadá sa na 3,32 % v EC-QA – pokles o 54 bodov, ktorý ďaleko prevyšuje zhoršenie akéhokoľvek všeobecného modelu.
  • V prostredí RAG klesá výkon všetkých modelov hlboko pod 27 % v porovnaní s výkonom pri ideálnom kontexte (gold-context), ktorý dosahuje až 57,48 %; úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model LLM.
  • Dokument zavádza taxonómiu 13 typov chýb v štyroch kategóriách: halucinácie a rozpory, finančne špecifické numerické a sémantické chyby, chyby v pochopení dopytu/kontextu a zlyhania na úrovni vyhľadávania. Chýbajúce dôkazy (Missing Evidence) predstavujú 75,44 % chýb v úlohe EC-QA v režime RAG.
  • Finančne špecializované modely vykazujú pri zložitých úlohách systematicky vyššiu mieru halucinácií než všeobecné modely, napriek lepšej finančnej terminológii.

Čo obstojí — a čo nie

Štruktúra troch ciest je skutočne dobre navrhnutá. Väčšina finančných benchmarkov (FinQA, TAT-QA, FinanceBench) považuje QA za úlohu založenú na jednom dokumente. Fin-RATE je jeden z prvých, ktorý explicitne modeluje porovnávanie medzi entitami a longitudinálne sledovanie ako prvoradé úlohy, pričom výsledky odhaľujú zásadnú medzeru: súčasné LLM zvládajú QA pri izolovaných zverejneniach prijateľne, ale rozpadajú sa v momente, keď potrebujú syntetizovať informácie naprieč dokumentmi, entitami alebo časovými obdobiami.

Kolaps Fin-R1 je najvýraznejším zistením dokumentu a myslím si, že sa mu nevenuje dostatočná pozornosť. Finančne vyladený model, ktorý vyniká v extrakcii z jedného dokumentu, sa zjavne naučil pracovať len v úzkom rámci: osvojil si šablóny pre odpovede v rámci jedného dokumentu, nie stratégie uvažovania pre prepájanie entít a časových období. Toto je konkrétne varovanie pred úzkym ladením (fine-tuning) na konkrétnu doménu bez explicitného dohľadu nad uvažovaním s viacerými dokumentmi. Model sa pravdepodobne „preučil“ na plytký vzorec „nájdi číslo vo výkaze“ a nemá žiadnu cestu zovšeobecnenia k úlohe „porovnaj toto číslo s ekvivalentným číslom v inom výkaze od inej spoločnosti“.

Napriek tomu existujú metodologické obavy, ktoré stoja za zmienku. GPT-5 je súčasne jedným z hodnotených modelov aj jedným z troch sudcov bodujúcich odpovede. Autori používajú troch sudcov na zníženie individuálnej predpojatosti, čo pomáha, ale prekrytie sudcu a modelu u najsilnejšieho hodnoteného modelu je znepokojujúce. Dokument uvádza vysokú mieru zhody medzi sudcami, ale samostatne nekvantifikuje, akú časť odpovedí GPT-5 hodnotil samotný model GPT-5, ani či sa jeho sebahodnotenie systematicky líši od ostatných dvoch sudcov. Akákoľvek predpojatosť pri sebahodnotení by umelo nadhodnotila celkový výsledok najlepšieho modelu v štúdii.

Vzorka 43 spoločností je tiež malá. Pokrytie typov výkazov je chvályhodne široké (10-K, 10-Q, 8-K, 6-K, DEF 14A a niekoľko sérií S a SC), ale rovnakých 43 spoločností sa objavuje vo všetkých úlohách. Modely, ktoré videli zverejnenia týchto spoločností počas predtrénovania, majú nekvantifikovanú výhodu a dokument neobsahuje žiadnu analýzu kontaminácie dát.

Zistenie o vyhľadávaní (retrieval) je dôležité, ale neúplné. Dokument identifikuje, že výkon RAG klesá približne o 30 bodov oproti ideálnemu kontextu (gold-context), pretože vyhľadávanie zlyháva. Benchmarkuje však iba jedno nastavenie vyhľadávania – zlyhanie vyhľadávania považuje skôr za diagnózu než za niečo, čo by sa malo systematicky meniť. Nadväzujúci dokument, ktorý by preskúmal rôzne architektúry vyhľadávania na Fin-RATE, by bol oveľa prínosnejší.

Prečo je to dôležité pre finančnú AI

Audit účtovnej knihy Beancount potrebuje presne tie dve schopnosti, o ktorých Fin-RATE odhalil, že nefungujú: longitudinálne sledovanie (ako sa tento účet vyvíjal počas fiškálnych rokov?) a porovnávanie medzi entitami (zhoduje sa súvaha tejto dcérskej spoločnosti s konsolidovanou uzávierkou?). Prepad presnosti o 18,60 % pri časovom sledovaní je konkrétne číslo, ktoré by malo korigovať očakávania od akéhokoľvek agenta Beancount uvažujúceho naprieč viacerými výkaznými obdobiami. Ak špičkové modely zlyhávajú na úrovni 43 % pri longitudinálnom QA výkazov SEC aj pri ideálnom kontexte, agent Beancount prechádzajúci viacročnou históriou účtovných kníh by mal byť navrhnutý s explicitným vyhľadávaním, časovým ukotvením a eskaláciou na človeka – nie ako end-to-end LLM inferencia.

Zistenie o dominancii vyhľadávania je kľúčové pre prioritu návrhu systému. Ak je výkon pri ideálnom kontexte takmer dvojnásobný oproti RAG, správnou investíciou je lepšie rozdelenie textu (chunking), výber pasáží a vyhľadávanie – nie schopnejší základný model LLM. Toto zrkadlí zistenia DocFinQA pre dlhé výkazy SEC: úzkym hrdlom je proces okolo modelu.

Varovanie ohľadom Fin-R1 sa priamo vzťahuje aj na prípady použitia Beancount. Jemné ladenie na syntaxi Beancount DSL a vzorcoch transakcií môže vytvoriť model, ktorý dobre zvláda generovanie jednoduchých zápisov, ale zlyháva pri zosúlaďovaní viacerých účtov a období, vďaka čomu je audit užitočný. Špecializácia bez tréningu uvažovania nad viacerými dokumentmi je krehká presne tými spôsobmi, ktoré Fin-RATE meria.

Čo si prečítať ďalej

  • Fin-R1 (arXiv:2503.16252) — pre pochopenie toho, aké tréningové nastavenie viedlo k tak krehkému výkonu naprieč dokumentmi a či uvažovanie nad viacerými dokumentmi bolo vôbec cieľom.
  • FinTrace (arXiv:2604.10015) — hodnotenie trajektórie volania nástrojov LLM v 34 kategóriách finančných úloh; dopĺňa statický QA pohľad Fin-RATE o diagnostiku na úrovni procesov, kde modely vyvolávajú správne nástroje, ale zlyhávajú pri uvažovaní nad výsledkami.
  • OpenHands (arXiv:2407.16741) — otvorená platforma agentov, na ktorej stoja hodnotenia TheAgentCompany; pochopenie jej architektúry objasňuje, ktoré základné schopnosti agentov boli k dispozícii a ktoré nedostatky možno pripísať náročnosti úlohy, a nie obmedzeniam platformy.