FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL
FinAuditing porovnáva LLM s neštruktúrovanou zložitosťou reálnych podaní SEC XBRL – nie s vybrúsenými dvojicami otázok a odpovedí, ktoré dominujú rebríčkom finančného NLP. Čítam to práve teraz, pretože agenda auditu v Bean Labs sa neustále vracia k otázke, na ktorú existujúce benchmarky nedokážu odpovedať: dokáže model udržať celé štruktúrované podanie v pamäti a overiť jeho vnútornú konzistenciu?
Článok
Wang a kol. predstavujú FinAuditing, benchmark 1 102 inštancií vybraných z 218 podaní XBRL v systéme SEC EDGAR, pokrývajúci typy chýb katalogizované Výborom pre kvalitu údajov XBRL US (DQC). XBRL je strojom čitateľný formát, ktorý SEC vyžaduje pre všetky podania verejne obchodovaných spoločností; každé podanie spája inštančný dokument (vykazované čísla), schému taxonómie (platné účtovné koncepty) a štyri bázy odkazov (linkbases) – výpočtovú, prezentačnú, definičnú a popisovú – ktoré určujú, ako spolu koncepty súvisia. Benchmark operacionalizuje tri čiastkové úlohy auditu: Finančné sémantické priraďovanie (FinSM, vyhľadanie správneho konceptu taxonómie pre vykazovanú skutočnosť), Extrakcia finančných vzťahov (FinRE, klasifikácia vzťahu medzi dvoma uzlami taxonómie) a Finančné matematické uvažovanie (FinMR, overenie, či vykazované údaje spĺňajú výpočtové pravidlá definované taxonómiou). Inštancie majú v priemere 33 848 tokenov – čo je na hranici alebo za hranicou efektívneho limitu kontextu mnohých open-source modelov – a všetkých 13 modelov je testovaných metódou zero-shot.
Kľúčové myšlienky
- FinSM je v podstate vyhľadávanie v taxonómii: k danej skutočnosti v podaní nájdite správny koncept US-GAAP. DeepSeek-V3 vedie s úspešnosťou Hit Rate@20 na úrovni 12,42 % – menej ako jeden z ôsmich odhadov je správny pri výbere z 20 kandidátov. GPT-4o dosahuje 9,09 %.
- FinRE (klasifikácia vzťahov v linkbase) je najjednoduchšia úloha: GPT-4o dosahuje presnosť 91,82 % a Macro F1 90,09. Ale Qwen3-32B a Fino1-14B – oba prezentované ako modely schopné finančných úloh – dosahujú 0,00 %, pričom zjavne zlyhávajú na type vzťahu CombinationErr.
- FinMR je brutálny: Fino1-14B vedie s presnosťou 13,86 %; väčšina modelov sa pohybuje v jednociferných číslach. Analýza chýb pripisuje 70 – 83 % zlyhaní aritmetickým chybám vo viacstupňových výpočtových pravidlách, pričom chyby v štrukturálnom formátovaní predstavujú 9 – 71 % v závislosti od modelu.
- Zdrojovými údajmi je 4 545 chybových správ DQC z reálnych podaní (2020 – 2024) – nejde o syntetické nepriateľské (adversarial) príklady. Benchmark vyberá 9 najčastejších typov chýb, ktoré pokrývajú 60,33 % porušení DQC v reálnom svete.
- Doménovo špecializované modely (Fino1-14B, FinR1) systematicky neporážajú univerzálne veľké modely; Fino1-14B vedie len vo FinMR a aj tam je jeho 13,86 % sotva nad úrovňou šumu.
Čo obstojí – a čo nie
Benchmark je cenný práve preto, že uniká formátu QA dvojíc: úspech si vyžaduje pochopenie vzťahov v linkbase, nielen priradenie otázky k úseku textu. Založenie tvorby inštancií na porušeniach DQC ho robí reprodukovateľným a priamo prepojeným s procesom reálneho auditu.
Napriek tomu mám výhrady. Výsledky FinRE sú mätúce: GPT-4o s 91,82 %, zatiaľ čo doménovo orientované modely padajú na 0,00 %, je rozptyl, ktorý takmer určite odráža citlivosť na prompt a nesúlad formátu výstupu, než skutočnú schopnosť uvažovania. Článok testuje všetky modely zero-shot bez ablácie formátu promptu alebo poskytnutia few-shot základov (baselines), čo znemožňuje pripísať skóre 0,00 % inteligencii namiesto zlyhania pri spracovaní (parsovaní). Rámec LLM-ako-sudca (LLM-as-judge) použitý pre FinMR vnáša ďalšiu vrstvu šumu do hodnotenia.
Hlavné tvrdenie – „pokles presnosti o 60 – 90 % pri hierarchických viacdokumentových štruktúrach“ – tiež potrebuje jasnejšie ukotvenie. Nie je jasné, či sa to porovnáva s ľudským výkonom, verziami tých istých úloh s jedným dokumentom alebo sploštenými (nehierarchickými) variantmi. Smer je správny, ale bez tohto základu je ťažké interpretovať rozsah.
Prečo je to dôležité pre finančnú AI
Súbory Beancount nie sú XBRL, ale zdieľajú kľúčové štrukturálne vlastnosti: hierarchický menný priestor účtov analogický k schéme taxonómie, obmedzenia podvojného účtovníctva, ktoré sa musia vyrovnať analogicky k výpočtovým linkbases, a typové záznamy odkazujúce na kánonické kategórie analogicky k priraďovaniu konceptov k inštanciám. Chybový režim FinMR – modely robiace aritmetické chyby vo viacstupňových výpočtových pravidlách – je presne to, na čom záleží pri overovaní zostatkov v Beancount. Ak GPT-4o nedokáže spoľahlivo overiť, či sa sčítacie stromy US-GAAP v podaní XBRL sčítajú správne, takmer určite mu nemožno dôverovať pri overovaní zložitých hierarchií účtov v účtovnej knihe bez prenesenia aritmetiky na externý nástroj (v štýle PAL).
Čísla FinSM sú priamym varovaním pre akéhokoľvek agenta Beancount, ktorý mapuje používateľom napísané názvy účtov alebo popisy transakcií na kánonickú účtovú osnovu. Dokonca aj najlepší model vyhľadá správny koncept v menej ako 13 % prípadov pri poradí (rank) 20. Vyhľadávanie založené na poradí nie je ani zďaleka pripravené na produkciu bez špecializovaného vyhľadávača (retriever) alebo jemného doladenia (fine-tuning) na cieľovú taxonómiu.
Nevýrazný výsledok doménovo špecializovaných modelov je poučný: v tejto triede úloh štruktúrovaného uvažovania stále o výsledkoch rozhoduje surová mierka (scale) a štruktúrované prompty viac než finančný predtréning.
Čo si prečítať ďalej
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) – hierarchická štruktúra linkbase XBRL je presne ten druh grafu nad dokumentmi, na ktorý sa zameriava GraphRAG od Microsoftu; stojí za prečítanie ako architektonická odpoveď na zlyhania vyhľadávania vo FinAuditing.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) – od prekrývajúcich sa autorov, zameriava sa na mapovanie finančných faktov na koncepty taxonómie (úloha predchádzajúca auditu); dopĺňa rozsah FinAuditing.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) – ak modely nedokážu spoľahlivo overiť výpočty pri zero-shot, odpoveďou môžu byť nástroje formálneho overovania navrstvené na akcie agentov namiesto lepších promptov.
