Prejsť na hlavný obsah
Financial Reporting

Všetko o Financial Reporting

12 článkov
Generating and auditing financial reports with language models

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.

FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL

FinAuditing testuje 13 LLM modelov metódou zero-shot na 1 102 reálnych prípadoch podaní SEC XBRL; najlepšie výsledky sú 13,86 % pri overovaní finančnej matematiky a 12,42 % pri vyhľadávaní konceptov – výsledky, ktoré priamo vymedzujú, do akej miery možno dôverovať automatizácii nástrojov AI účtovníctva bez externých nástrojov.

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

FinQA (EMNLP 2021) vytvoril 8 281 párov otázok a odpovedí z výkazov ziskov a strát spoločností z indexu S&P 500, ktoré vyžadujú viacstupňové aritmetické programy. Neurónové modely dosiahli pri vydaní skóre 61 % v porovnaní s 91 % u ľudských expertov; presnosť klesá na 22 % pri programoch s tromi a viacerými krokmi. Chybové režimy — doménové konštanty, prepojenie naprieč modalitami, dĺžka reťazca — priamo zodpovedajú výzvam, ktorým dnes čelia agenti Beancount.