35 príspevkov so štítkom „Finance“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

FinTrace testuje 13 modelov LLM na 800 expertmi anotovaných trajektóriách finančných úloh v 9 metrikách. Zisťuje, že najvýkonnejšie modely dosahujú silný výber nástrojov (F1 ~ 0,9), ale v oblasti využitia informácií – kroku, v ktorom agenti uvažujú nad tým, čo nástroje vrátili – získavajú len 3,23/5.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

OmniEval (EMNLP 2025) testuje systémy RAG v rámci 5 typov úloh × 16 finančných tém s použitím 11,4 tisíc automaticky generovaných testovacích prípadov. Najlepšie systémy dosahujú len 36 % numerickú presnosť – konkrétny dôkaz, že RAG procesy potrebujú validačné vrstvy pred zápisom do štruktúrovaných finančných účtovných kníh.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch

AnoLLM (ICLR 2025) preformulováva detekciu anomálií v tabuľkových údajoch ako odhad hustoty pomocou LLM — doladenie na normálnych riadkoch a skórovanie pomocou zápornej logaritmickej vierohodnosti. Prekonáva klasické metódy na súboroch údajov o podvodoch so zmiešanými typmi, ale neponúka výhodu pri čisto numerických údajoch, s reálnymi dôsledkami pre detekciu anomálií v záznamoch účtovnej knihy Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní

InvestorBench (ACL 2025) testuje 13 základných LLM modelov na spätne testovanom obchodovaní s akciami, kryptomenami a ETF pomocou kumulatívneho výnosu a Sharpeho pomeru – nie presnosti otázok a odpovedí. Qwen2.5-72B vedie v rebríčku akcií s 46,15 % CR; modely vyladené pre financie pri akciách zlyhávajú. Veľkosť modelu predpovedá výkon spoľahlivejšie než doménové jemné doladenie.

Všetko o Finance

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie