Prejsť na hlavný obsah
Data Science

Všetko o Data Science

40 článkov
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

FinToolBench spája 760 živých finančných API nástrojov s 295 vykonateľnými dopytmi na benchmarking LLM agentov pri reálnych finančných úlohách — zisťuje, že konzervatívna 22,7 % miera vyvolania modelu GPT-4o prináša vyššiu kvalitu odpovedí (CSS 0,670) než agresívna 87,1 % miera TIR modelu Qwen3-8B, pričom nesúlad zámerov presahuje 50 % u všetkých testovaných modelov.

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

OmniEval (EMNLP 2025) testuje systémy RAG v rámci 5 typov úloh × 16 finančných tém s použitím 11,4 tisíc automaticky generovaných testovacích prípadov. Najlepšie systémy dosahujú len 36 % numerickú presnosť – konkrétny dôkaz, že RAG procesy potrebujú validačné vrstvy pred zápisom do štruktúrovaných finančných účtovných kníh.

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Kritické čítanie prehľadu NAACL 2025 od Xu a Dinga o detekcii anomálií a OOD založenej na LLM: taxonómia detekcie verzus generovania obstojí, ale takmer úplná absencia pokrytia tabuľkových dát znamená, že praktici v oblasti finančnej AI si musia poznatky z vizuálnych modelov syntetizovať sami.

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.