Preskočiť na hlavný obsah
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Zobraziť všetkých autorov

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti
·mike

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

ai
llm
machine-learning
finance
+4
Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť
·mike

Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť

EnterpriseArena podrobuje 11 modelov LLM 132-mesačnej simulácii finančného riaditeľa (CFO), pričom sleduje mieru prežitia, konečnú hodnotu firmy a mieru uzatvárania účtovných kníh. Iba Qwen3.5-9B prežije v 80 % prípadov; modely GPT-5.4 a DeepSeek-V3.1 dosahujú 0 %. Ľudskí experti dosahujú 100 % prežitie pri 5-násobne vyššej konečnej hodnote. Kritickým úzkym hrdlom je, že LLM v 80 % prípadov vynechávajú odsúhlasenie účtovnej knihy a konajú na základe neaktuálneho finančného stavu.

ai
llm
automation
reconciliation
+4
WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete
·mike

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

WildToolBench (ICLR 2026) vyhodnocuje 57 LLM na 1 024 úlohách odvodených z reálneho správania používateľov – žiadny model neprekračuje 15 % presnosť relácie, pričom kompozičná orchestrácia, skrytý zámer a prechody v inštrukciách sú tri najvýraznejšie režimy zlyhania.

ai
llm
automation
machine-learning
+3
Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje
·mike

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.

llm
ai
machine-learning
trust
+3
JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM
·mike

JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM

JSONSchemaBench testuje 9 558 reálnych JSON schém voči šiestim frameworkom pre obmedzené dekódovanie a zisťuje, že komplexita schém spôsobuje kolaps pokrytia z 86 % pri jednoduchých schémach na 3 % pri komplexných, pričom XGrammar ticho vyprodukoval 38 nevyhovujúcich výstupov a žiadny framework nepokrýva všetkých 45 kategórií funkcií JSON schém.

llm
ai
machine-learning
automation
+2
FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP
·mike

FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP

FinMCP-Bench vyhodnocuje šesť modelov LLM na 613 úlohách používania finančných nástrojov v reálnom svete s podporou 65 serverov MCP – najlepší model dosahuje 3,08 % mieru presnej zhody pri viacotáčkových úlohách, čo odhaľuje 20-násobný pokles výkonu pri prechode z jednonástrojových na viacotáčkové scenáre.

ai
llm
automation
beancount
+3
FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie
·mike

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

FinTrace testuje 13 modelov LLM na 800 expertmi anotovaných trajektóriách finančných úloh v 9 metrikách. Zisťuje, že najvýkonnejšie modely dosahujú silný výber nástrojov (F1 ~ 0,9), ale v oblasti využitia informácií – kroku, v ktorom agenti uvažujú nad tým, čo nástroje vrátili – získavajú len 3,23/5.

llm
ai
finance
fintech
+3
FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov
·mike

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

FinToolBench spája 760 živých finančných API nástrojov s 295 vykonateľnými dopytmi na benchmarking LLM agentov pri reálnych finančných úlohách — zisťuje, že konzervatívna 22,7 % miera vyvolania modelu GPT-4o prináša vyššiu kvalitu odpovedí (CSS 0,670) než agresívna 87,1 % miera TIR modelu Qwen3-8B, pričom nesúlad zámerov presahuje 50 % u všetkých testovaných modelov.

ai
llm
automation
machine-learning
+4
OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti
·mike

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

OmniEval (EMNLP 2025) testuje systémy RAG v rámci 5 typov úloh × 16 finančných tém s použitím 11,4 tisíc automaticky generovaných testovacích prípadov. Najlepšie systémy dosahujú len 36 % numerickú presnosť – konkrétny dôkaz, že RAG procesy potrebujú validačné vrstvy pred zápisom do štruktúrovaných finančných účtovných kníh.

ai
machine-learning
llm
finance
+3
Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát
·mike

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Kritické čítanie prehľadu NAACL 2025 od Xu a Dinga o detekcii anomálií a OOD založenej na LLM: taxonómia detekcie verzus generovania obstojí, ale takmer úplná absencia pokrytia tabuľkových dát znamená, že praktici v oblasti finančnej AI si musia poznatky z vizuálnych modelov syntetizovať sami.

ai
llm
machine-learning
fraud-detection
+3
Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom
·mike

Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom

Kalibrácia počas inferencie bez nutnosti trénovania odčítava pozičnú predpojatosť z váh pozornosti LLM, čím obnovuje až 15 percentuálnych bodov presnosti RAG, keď sú vyhľadané dokumenty ukryté uprostred kontextu – a čo to znamená pre finančne špecifické agentúrne procesy.

ai
llm
machine-learning
data-science
+3
Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely
·mike

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

ReDAct predvolene spúšťa malý model a eskaluje na drahý model len vtedy, keď perplexita na úrovni tokenov signalizuje neistotu, čím dosahuje 64 % úsporu nákladov oproti použitiu iba GPT-5.2 pri zachovaní alebo prekonaní jeho presnosti — model priamo aplikovateľný pre agentov kategorizácie transakcií v Beancounte.

ai
llm
automation
machine-learning
+4
Zobrazené 1–12 z 87 príspevkov
1 / 8Ďalší