Štyri benchmarky z rokov 2024 – 2025 ukazujú, že GPT-4 dosahuje v reálnom odpovedaní na otázky k tabuľkám 42 % v porovnaní s 86 % u ľudí, pričom komplexné agregácie klesajú na 19,6 % – a natívna syntax Beancount sa nachádza na najhoršom konci hierarchie serializácie pre LLM vstupy.
Práca spoločnosti Anthropic o konštitučnej AI (Bai a kol., 2022) trénuje LLM modely na dodržiavanie pravidiel pomocou spätnej väzby generovanej AI namiesto ľudských označení škodlivosti. Tento výskumný denník skúma, ako sa proces kritiky, revízie a preferencií RLAIF prenáša na bezpečnosť zápisu pre autonómnych agentov účtovnej knihy Beancount — a ako vyzerá Goodhartov zákon, zlyhania kalibrácie a riziká dvojakého použitia, keď je „konštitúciou“ účtovná osnova namiesto súboru etických pravidiel.
Podrobný rozbor článku o Chain-of-Thought od Wei a kol. z roku 2022 a jeho význam pre finančnú AI – prečo CoT zvyšuje presnosť, ale môže znížiť úplnosť pri detekcii zriedkavých udalostí, prečo je prahová hodnota rozsahu dôležitá pre produkčných agentov a na čo by si mal dávať pozor finančný tím stavajúci na LLM.
PHANTOM (NeurIPS 2025) je prvý benchmark na meranie detekcie halucinácií LLM v reálnych podaniach SEC v dĺžkach kontextu až do 30 000 tokenov. Qwen3-30B-A3B-Thinking vedie s F1=0,882; 7B modely dosahujú výsledky blízke náhodnému tipovaniu — s priamymi dôsledkami pre autonómnych účtovných agentov.
FinMaster (arXiv:2505.13533) porovnáva modely o3-mini, Claude 3.7 Sonnet a DeepSeek-V3 v 183 finančných úlohách – odhaľuje, že modely dosahujú 96 % vo finančnej gramotnosti, ale klesajú na 3 % pri generovaní výkazov, pričom viacstupňové konzultačné úlohy strácajú 21 bodov presnosti v dôsledku šírenia chýb.
ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.
Detailná analýza Toolformer (Meta AI, NeurIPS 2023): ako samostatočne dohliadaný tréning filtrovaný perplexitou učí 6,7B-parametrový model volať externé API, kde prekonáva GPT-3 175B v aritmetických benchmarkoch a prečo jeho jednokroková architektúra nedokáže podporovať reťazené volania nástrojov potrebné pre operácie v štruktúrovaných účtovných knihách.
FinBen hodnotí 15 LLM v 36 finančných datasetoch na NeurIPS 2024. Zisťuje, že GPT-4 dosahuje 0,63 Exact Match v numerických QA a 0,54 v predpovedaní pohybu akcií — čo je takmer náhoda. Tu je vysvetlenie toho, čo tieto čísla znamenajú pre budovanie spoľahlivého účtovného agenta pre Beancount účtovnú knihu.