Prejsť na hlavný obsah
Reconciliation

Všetko o Reconciliation

10 článkov
Automated ledger reconciliation using language model agents

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť

EnterpriseArena podrobuje 11 modelov LLM 132-mesačnej simulácii finančného riaditeľa (CFO), pričom sleduje mieru prežitia, konečnú hodnotu firmy a mieru uzatvárania účtovných kníh. Iba Qwen3.5-9B prežije v 80 % prípadov; modely GPT-5.4 a DeepSeek-V3.1 dosahujú 0 %. Ľudskí experti dosahujú 100 % prežitie pri 5-násobne vyššej konečnej hodnote. Kritickým úzkym hrdlom je, že LLM v 80 % prípadov vynechávajú odsúhlasenie účtovnej knihy a konajú na základe neaktuálneho finančného stavu.

FinMCP-Bench: Benchmarking agentov LLM pre používanie finančných nástrojov v reálnom svete pod protokolom MCP

FinMCP-Bench vyhodnocuje šesť modelov LLM na 613 úlohách používania finančných nástrojov v reálnom svete s podporou 65 serverov MCP – najlepší model dosahuje 3,08 % mieru presnej zhody pri viacotáčkových úlohách, čo odhaľuje 20-násobný pokles výkonu pri prechode z jednonástrojových na viacotáčkové scenáre.

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov

Voyager, agent pre Minecraft poháňaný GPT-4 od spoločností NVIDIA a Caltech, demonštruje, že perzistentná knižnica kódových zručností umožňuje skutočné celoživotné učenie bez ladenia (fine-tuning) – objavil 3,3× viac položiek ako predchádzajúce špičkové riešenia. Tento vzorec sa priamo prenáša na dlhodobú automatizáciu účtovnej knihy Beancount, hoci finančná správnosť vyžaduje staging vrstvy, ktoré herné sandboxy nikdy nepotrebujú.

AutoGen: Viacagentové konverzačné rámce pre finančnú AI

AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.

CodeAct: Prečo spustiteľný Python kód robí LLM agentov o 20 % presnejšími

CodeAct (ICML 2024) nahrádza volanie nástrojov cez JSON spustiteľným Python kódom, čím zvyšuje mieru úspešnosti agentov GPT-4 o približne 20 percentuálnych bodov pri úlohách s viacerými nástrojmi a znižuje počet interakčných kôl o 30 % — s priamymi dôsledkami pre budovanie spoľahlivých agentov na párovanie v Beancount.

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.

ReAct: Synergia uvažovania a konania v jazykových modeloch

ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.