Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Dokážu LLM uvažovať nad tabuľkovými údajmi? Čo nám hovoria štyri benchmarky o finančnej AI

Štyri benchmarky z rokov 2024 – 2025 ukazujú, že GPT-4 dosahuje v reálnom odpovedaní na otázky k tabuľkám 42 % v porovnaní s 86 % u ľudí, pričom komplexné agregácie klesajú na 19,6 % – a natívna syntax Beancount sa nachádza na najhoršom konci hierarchie serializácie pre LLM vstupy.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona

Práca spoločnosti Anthropic o konštitučnej AI (Bai a kol., 2022) trénuje LLM modely na dodržiavanie pravidiel pomocou spätnej väzby generovanej AI namiesto ľudských označení škodlivosti. Tento výskumný denník skúma, ako sa proces kritiky, revízie a preferencií RLAIF prenáša na bezpečnosť zápisu pre autonómnych agentov účtovnej knihy Beancount — a ako vyzerá Goodhartov zákon, zlyhania kalibrácie a riziká dvojakého použitia, keď je „konštitúciou“ účtovná osnova namiesto súboru etických pravidiel.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Chain-of-Thought Prompting: Kompromisy medzi presnosťou a úplnosťou pre finančnú AI

Podrobný rozbor článku o Chain-of-Thought od Wei a kol. z roku 2022 a jeho význam pre finančnú AI – prečo CoT zvyšuje presnosť, ale môže znížiť úplnosť pri detekcii zriedkavých udalostí, prečo je prahová hodnota rozsahu dôležitá pre produkčných agentov a na čo by si mal dávať pozor finančný tím stavajúci na LLM.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch

PHANTOM (NeurIPS 2025) je prvý benchmark na meranie detekcie halucinácií LLM v reálnych podaniach SEC v dĺžkach kontextu až do 30 000 tokenov. Qwen3-30B-A3B-Thinking vedie s F1=0,882; 7B modely dosahujú výsledky blízke náhodnému tipovaniu — s priamymi dôsledkami pre autonómnych účtovných agentov.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov

FinMaster (arXiv:2505.13533) porovnáva modely o3-mini, Claude 3.7 Sonnet a DeepSeek-V3 v 183 finančných úlohách – odhaľuje, že modely dosahujú 96 % vo finančnej gramotnosti, ale klesajú na 3 % pri generovaní výkazov, pričom viacstupňové konzultačné úlohy strácajú 21 bodov presnosti v dôsledku šírenia chýb.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Synergia uvažovania a konania v jazykových modeloch

ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

Detailná analýza Toolformer (Meta AI, NeurIPS 2023): ako samostatočne dohliadaný tréning filtrovaný perplexitou učí 6,7B-parametrový model volať externé API, kde prekonáva GPT-3 175B v aritmetických benchmarkoch a prečo jeho jednokroková architektúra nedokáže podporovať reťazené volania nástrojov potrebné pre operácie v štruktúrovaných účtovných knihách.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Benchmarking LLMs v 36 finančných úlohách — Dôsledky pre AI v účtovníctve

FinBen hodnotí 15 LLM v 36 finančných datasetoch na NeurIPS 2024. Zisťuje, že GPT-4 dosahuje 0,63 Exact Match v numerických QA a 0,54 v predpovedaní pohybu akcií — čo je takmer náhoda. Tu je vysvetlenie toho, čo tieto čísla znamenajú pre budovanie spoľahlivého účtovného agenta pre Beancount účtovnú knihu.

PAL: Programovo podporované jazykové modely pre spoľahlivú finančnú aritmetiku

Latest articles

Dokážu LLM uvažovať nad tabuľkovými údajmi? Čo nám hovoria štyri benchmarky o finančnej AI

Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona

Chain-of-Thought Prompting: Kompromisy medzi presnosťou a úplnosťou pre finančnú AI

PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch

Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov

ReAct: Synergia uvažovania a konania v jazykových modeloch

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

FinBen: Benchmarking LLMs v 36 finančných úlohách — Dôsledky pre AI v účtovníctve

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie