40 príspevkov so štítkom „Data Science“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

WildToolBench (ICLR 2026) vyhodnocuje 57 LLM na 1 024 úlohách odvodených z reálneho správania používateľov – žiadny model neprekračuje 15 % presnosť relácie, pričom kompozičná orchestrácia, skrytý zámer a prechody v inštrukciách sú tri najvýraznejšie režimy zlyhania.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

FinToolBench spája 760 živých finančných API nástrojov s 295 vykonateľnými dopytmi na benchmarking LLM agentov pri reálnych finančných úlohách — zisťuje, že konzervatívna 22,7 % miera vyvolania modelu GPT-4o prináša vyššiu kvalitu odpovedí (CSS 0,670) než agresívna 87,1 % miera TIR modelu Qwen3-8B, pričom nesúlad zámerov presahuje 50 % u všetkých testovaných modelov.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

OmniEval (EMNLP 2025) testuje systémy RAG v rámci 5 typov úloh × 16 finančných tém s použitím 11,4 tisíc automaticky generovaných testovacích prípadov. Najlepšie systémy dosahujú len 36 % numerickú presnosť – konkrétny dôkaz, že RAG procesy potrebujú validačné vrstvy pred zápisom do štruktúrovaných finančných účtovných kníh.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Kritické čítanie prehľadu NAACL 2025 od Xu a Dinga o detekcii anomálií a OOD založenej na LLM: taxonómia detekcie verzus generovania obstojí, ale takmer úplná absencia pokrytia tabuľkových dát znamená, že praktici v oblasti finančnej AI si musia poznatky z vizuálnych modelov syntetizovať sami.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom

Kalibrácia počas inferencie bez nutnosti trénovania odčítava pozičnú predpojatosť z váh pozornosti LLM, čím obnovuje až 15 percentuálnych bodov presnosti RAG, keď sú vyhľadané dokumenty ukryté uprostred kontextu – a čo to znamená pre finančne špecifické agentúrne procesy.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

Všetko o Data Science

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie