Mike Thrift

Marketing Manager

July 12, 2026·mike

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

llm

machine-learning

July 11, 2026·mike

Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť

EnterpriseArena podrobuje 11 modelov LLM 132-mesačnej simulácii finančného riaditeľa (CFO), pričom sleduje mieru prežitia, konečnú hodnotu firmy a mieru uzatvárania účtovných kníh. Iba Qwen3.5-9B prežije v 80 % prípadov; modely GPT-5.4 a DeepSeek-V3.1 dosahujú 0 %. Ľudskí experti dosahujú 100 % prežitie pri 5-násobne vyššej konečnej hodnote. Kritickým úzkym hrdlom je, že LLM v 80 % prípadov vynechávajú odsúhlasenie účtovnej knihy a konajú na základe neaktuálneho finančného stavu.

llm

automation

July 10, 2026·mike

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

WildToolBench (ICLR 2026) vyhodnocuje 57 LLM na 1 024 úlohách odvodených z reálneho správania používateľov – žiadny model neprekračuje 15 % presnosť relácie, pričom kompozičná orchestrácia, skrytý zámer a prechody v inštrukciách sú tri najvýraznejšie režimy zlyhania.

llm

automation

July 9, 2026·mike

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.

llm

machine-learning

July 8, 2026·mike

JSONSchemaBench: Komplexita schém v reálnom svete narúša garancie štruktúrovaného výstupu LLM

JSONSchemaBench testuje 9 558 reálnych JSON schém voči šiestim frameworkom pre obmedzené dekódovanie a zisťuje, že komplexita schém spôsobuje kolaps pokrytia z 86 % pri jednoduchých schémach na 3 % pri komplexných, pričom XGrammar ticho vyprodukoval 38 nevyhovujúcich výstupov a žiadny framework nepokrýva všetkých 45 kategórií funkcií JSON schém.

llm

machine-learning

July 7, 2026·mike

FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP

FinMCP-Bench vyhodnocuje šesť modelov LLM na 613 úlohách používania finančných nástrojov v reálnom svete s podporou 65 serverov MCP – najlepší model dosahuje 3,08 % mieru presnej zhody pri viacotáčkových úlohách, čo odhaľuje 20-násobný pokles výkonu pri prechode z jednonástrojových na viacotáčkové scenáre.

llm

automation

July 6, 2026·mike

FinTrace: Hodnotenie volania nástrojov LLM pre finančné úlohy na úrovni trajektórie

FinTrace testuje 13 modelov LLM na 800 expertmi anotovaných trajektóriách finančných úloh v 9 metrikách. Zisťuje, že najvýkonnejšie modely dosahujú silný výber nástrojov (F1 ~ 0,9), ale v oblasti využitia informácií – kroku, v ktorom agenti uvažujú nad tým, čo nástroje vrátili – získavajú len 3,23/5.

llm

finance

July 5, 2026·mike

FinToolBench: Evaluácia LLM agentov pri používaní reálnych finančných nástrojov

FinToolBench spája 760 živých finančných API nástrojov s 295 vykonateľnými dopytmi na benchmarking LLM agentov pri reálnych finančných úlohách — zisťuje, že konzervatívna 22,7 % miera vyvolania modelu GPT-4o prináša vyššiu kvalitu odpovedí (CSS 0,670) než agresívna 87,1 % miera TIR modelu Qwen3-8B, pričom nesúlad zámerov presahuje 50 % u všetkých testovaných modelov.

llm

automation

July 4, 2026·mike

OmniEval: Všesmerový benchmark pre hodnotenie RAG vo finančnej oblasti

OmniEval (EMNLP 2025) testuje systémy RAG v rámci 5 typov úloh × 16 finančných tém s použitím 11,4 tisíc automaticky generovaných testovacích prípadov. Najlepšie systémy dosahujú len 36 % numerickú presnosť – konkrétny dôkaz, že RAG procesy potrebujú validačné vrstvy pred zápisom do štruktúrovaných finančných účtovných kníh.

machine-learning

llm

July 3, 2026·mike

Prehľad detekcie anomálií pomocou LLM (NAACL 2025): Silná taxonómia, chýbajúce pokrytie tabuľkových dát

Kritické čítanie prehľadu NAACL 2025 od Xu a Dinga o detekcii anomálií a OOD založenej na LLM: taxonómia detekcie verzus generovania obstojí, ale takmer úplná absencia pokrytia tabuľkových dát znamená, že praktici v oblasti finančnej AI si musia poznatky z vizuálnych modelov syntetizovať sami.

llm

machine-learning

July 2, 2026·mike

Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom

Kalibrácia počas inferencie bez nutnosti trénovania odčítava pozičnú predpojatosť z váh pozornosti LLM, čím obnovuje až 15 percentuálnych bodov presnosti RAG, keď sú vyhľadané dokumenty ukryté uprostred kontextu – a čo to znamená pre finančne špecifické agentúrne procesy.

llm

machine-learning

July 1, 2026·mike

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

ReDAct predvolene spúšťa malý model a eskaluje na drahý model len vtedy, keď perplexita na úrovni tokenov signalizuje neistotu, čím dosahuje 64 % úsporu nákladov oproti použitiu iba GPT-5.2 pri zachovaní alebo prekonaní jeho presnosti — model priamo aplikovateľný pre agentov kategorizácie transakcií v Beancounte.

llm

automation

Zobrazené 1–12 z 87 príspevkov

1 / 8Ďalší