89 príspevkov so štítkom „LLM“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť

EnterpriseArena podrobuje 11 modelov LLM 132-mesačnej simulácii finančného riaditeľa (CFO), pričom sleduje mieru prežitia, konečnú hodnotu firmy a mieru uzatvárania účtovných kníh. Iba Qwen3.5-9B prežije v 80 % prípadov; modely GPT-5.4 a DeepSeek-V3.1 dosahujú 0 %. Ľudskí experti dosahujú 100 % prežitie pri 5-násobne vyššej konečnej hodnote. Kritickým úzkym hrdlom je, že LLM v 80 % prípadov vynechávajú odsúhlasenie účtovnej knihy a konajú na základe neaktuálneho finančného stavu.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

WildToolBench (ICLR 2026) vyhodnocuje 57 LLM na 1 024 úlohách odvodených z reálneho správania používateľov – žiadny model neprekračuje 15 % presnosť relácie, pričom kompozičná orchestrácia, skrytý zámer a prechody v inštrukciách sú tri najvýraznejšie režimy zlyhania.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM

JSONSchemaBench testuje 9 558 reálnych JSON schém voči šiestim frameworkom pre obmedzené dekódovanie a zisťuje, že komplexita schém spôsobuje kolaps pokrytia z 86 % pri jednoduchých schémach na 3 % pri komplexných, pričom XGrammar ticho vyprodukoval 38 nevyhovujúcich výstupov a žiadny framework nepokrýva všetkých 45 kategórií funkcií JSON schém.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP

FinMCP-Bench vyhodnocuje šesť modelov LLM na 613 úlohách používania finančných nástrojov v reálnom svete s podporou 65 serverov MCP – najlepší model dosahuje 3,08 % mieru presnej zhody pri viacotáčkových úlohách, čo odhaľuje 20-násobný pokles výkonu pri prechode z jednonástrojových na viacotáčkové scenáre.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

FinTrace testuje 13 modelov LLM na 800 expertmi anotovaných trajektóriách finančných úloh v 9 metrikách. Zisťuje, že najvýkonnejšie modely dosahujú silný výber nástrojov (F1 ~ 0,9), ale v oblasti využitia informácií – kroku, v ktorom agenti uvažujú nad tým, čo nástroje vrátili – získavajú len 3,23/5.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

FinToolBench spája 760 živých finančných API nástrojov s 295 vykonateľnými dopytmi na benchmarking LLM agentov pri reálnych finančných úlohách — zisťuje, že konzervatívna 22,7 % miera vyvolania modelu GPT-4o prináša vyššiu kvalitu odpovedí (CSS 0,670) než agresívna 87,1 % miera TIR modelu Qwen3-8B, pričom nesúlad zámerov presahuje 50 % u všetkých testovaných modelov.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

OmniEval (EMNLP 2025) testuje systémy RAG v rámci 5 typov úloh × 16 finančných tém s použitím 11,4 tisíc automaticky generovaných testovacích prípadov. Najlepšie systémy dosahujú len 36 % numerickú presnosť – konkrétny dôkaz, že RAG procesy potrebujú validačné vrstvy pred zápisom do štruktúrovaných finančných účtovných kníh.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Kritické čítanie prehľadu NAACL 2025 od Xu a Dinga o detekcii anomálií a OOD založenej na LLM: taxonómia detekcie verzus generovania obstojí, ale takmer úplná absencia pokrytia tabuľkových dát znamená, že praktici v oblasti finančnej AI si musia poznatky z vizuálnych modelov syntetizovať sami.

Všetko o LLM

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM

FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie