8 príspevkov so štítkom „Analytics“

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Kritické čítanie prehľadu NAACL 2025 od Xu a Dinga o detekcii anomálií a OOD založenej na LLM: taxonómia detekcie verzus generovania obstojí, ale takmer úplná absencia pokrytia tabuľkových dát znamená, že praktici v oblasti finančnej AI si musia poznatky z vizuálnych modelov syntetizovať sami.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií

AD-LLM testuje GPT-4o a Llama 3.1 8B v troch úlohách detekcie anomálií – ako zero-shot detektor, nástroj na augmentáciu dát a poradca pri výbere modelu – na piatich NLP datasetoch; GPT-4o dosahuje AUROC 0,93 – 0,99 v režime zero-shot, avšak výber modelu pomocou LLM zostáva nespoľahlivý, čo má priamy vplyv na AI vo finančnom audite.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov

τ-bench ukazuje, že špičkové LLM ako Claude 3.5 Sonnet klesajú z pass@1 na úrovni 0,692 na pass@4 na úrovni 0,462 v úlohách zákazníckeho servisu v maloobchode – ide o prepad v konzistencii s priamymi dôsledkami pre akéhokoľvek write-back agenta pracujúceho s Beancount účtovnou knihou.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

FinanceBench vyhodnocuje 16 konfigurácií AI voči 10 231 otázkam z reálnych výkazov SEC; RAG so zdieľaným vektorovým úložiskom odpovedá správne len v 19 % prípadov a dokonca aj GPT-4-Turbo s ideálnym textovým úryvkom (oracle passage) dosahuje len 85 % presnosť — čo ukazuje, že numerické uvažovanie, nie vyhľadávanie, je hlavným obmedzením pre podnikovú finančnú AI.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

Self-consistency nahrádza chamtivé (greedy) dekódovanie chain-of-thought väčšinovým hlasovaním nad N vzorkovanými cestami uvažovania — čím zvyšuje presnosť GPT-3 na GSM8K o 17,9 percentuálneho bodu bez akéhokoľvek doladenia — a je priamo aplikovateľná na viacstupňové finančné výpočty, kde je jedno dekódovanie LLM nespoľahlivé.

Všetko o Analytics

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií

τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie