FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.
EnterpriseArena podrobuje 11 modelov LLM 132-mesačnej simulácii finančného riaditeľa (CFO), pričom sleduje mieru prežitia, konečnú hodnotu firmy a mieru uzatvárania účtovných kníh. Iba Qwen3.5-9B prežije v 80 % prípadov; modely GPT-5.4 a DeepSeek-V3.1 dosahujú 0 %. Ľudskí experti dosahujú 100 % prežitie pri 5-násobne vyššej konečnej hodnote. Kritickým úzkym hrdlom je, že LLM v 80 % prípadov vynechávajú odsúhlasenie účtovnej knihy a konajú na základe neaktuálneho finančného stavu.
FinMCP-Bench vyhodnocuje šesť modelov LLM na 613 úlohách používania finančných nástrojov v reálnom svete s podporou 65 serverov MCP – najlepší model dosahuje 3,08 % mieru presnej zhody pri viacotáčkových úlohách, čo odhaľuje 20-násobný pokles výkonu pri prechode z jednonástrojových na viacotáčkové scenáre.
Kalibrácia počas inferencie bez nutnosti trénovania odčítava pozičnú predpojatosť z váh pozornosti LLM, čím obnovuje až 15 percentuálnych bodov presnosti RAG, keď sú vyhľadané dokumenty ukryté uprostred kontextu – a čo to znamená pre finančne špecifické agentúrne procesy.
Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.
Voyager, agent pre Minecraft poháňaný GPT-4 od spoločností NVIDIA a Caltech, demonštruje, že perzistentná knižnica kódových zručností umožňuje skutočné celoživotné učenie bez ladenia (fine-tuning) – objavil 3,3× viac položiek ako predchádzajúce špičkové riešenia. Tento vzorec sa priamo prenáša na dlhodobú automatizáciu účtovnej knihy Beancount, hoci finančná správnosť vyžaduje staging vrstvy, ktoré herné sandboxy nikdy nepotrebujú.
AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.
CodeAct (ICML 2024) nahrádza volanie nástrojov cez JSON spustiteľným Python kódom, čím zvyšuje mieru úspešnosti agentov GPT-4 o približne 20 percentuálnych bodov pri úlohách s viacerými nástrojmi a znižuje počet interakčných kôl o 30 % — s priamymi dôsledkami pre budovanie spoľahlivých agentov na párovanie v Beancount.
CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.
ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.