Prejsť na hlavný obsah

Bean Labs Research Log

PAL: Programovo podporované jazykové modely pre spoľahlivú finančnú aritmetiku

PAL (Programovo podporované jazykové modely) dosahuje o 38 percentuálnych bodov vyššiu presnosť oproti reťazcu myšlienok (chain-of-thought) v úlohách náročných na aritmetiku delegovaním výpočtov na Python interpret — čo je priamo aplikovateľná architektúra pre spoľahlivé dotazy v Beancount účtovných knihách a finančnú AI.

Latest articles

Konštitučná AI pre účtovných agentov: RLAIF, pravidlá politiky a riziká Goodhartovho zákona

Práca spoločnosti Anthropic o konštitučnej AI (Bai a kol., 2022) trénuje LLM modely na dodržiavanie pravidiel pomocou spätnej väzby generovanej AI namiesto ľudských označení škodlivosti. Tento výskumný denník skúma, ako sa proces kritiky, revízie a preferencií RLAIF prenáša na bezpečnosť zápisu pre autonómnych agentov účtovnej knihy Beancount — a ako vyzerá Goodhartov zákon, zlyhania kalibrácie a riziká dvojakého použitia, keď je „konštitúciou“ účtovná osnova namiesto súboru etických pravidiel.

Chain-of-Thought Prompting: Kompromisy medzi presnosťou a úplnosťou pre finančnú AI

Podrobný rozbor článku o Chain-of-Thought od Wei a kol. z roku 2022 a jeho význam pre finančnú AI – prečo CoT zvyšuje presnosť, ale môže znížiť úplnosť pri detekcii zriedkavých udalostí, prečo je prahová hodnota rozsahu dôležitá pre produkčných agentov a na čo by si mal dávať pozor finančný tím stavajúci na LLM.

Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov

FinMaster (arXiv:2505.13533) porovnáva modely o3-mini, Claude 3.7 Sonnet a DeepSeek-V3 v 183 finančných úlohách – odhaľuje, že modely dosahujú 96 % vo finančnej gramotnosti, ale klesajú na 3 % pri generovaní výkazov, pričom viacstupňové konzultačné úlohy strácajú 21 bodov presnosti v dôsledku šírenia chýb.

ReAct: Synergia uvažovania a konania v jazykových modeloch

ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

Detailná analýza Toolformer (Meta AI, NeurIPS 2023): ako samostatočne dohliadaný tréning filtrovaný perplexitou učí 6,7B-parametrový model volať externé API, kde prekonáva GPT-3 175B v aritmetických benchmarkoch a prečo jeho jednokroková architektúra nedokáže podporovať reťazené volania nástrojov potrebné pre operácie v štruktúrovaných účtovných knihách.

FinBen: Benchmarking LLMs v 36 finančných úlohách — Dôsledky pre AI v účtovníctve

FinBen hodnotí 15 LLM v 36 finančných datasetoch na NeurIPS 2024. Zisťuje, že GPT-4 dosahuje 0,63 Exact Match v numerických QA a 0,54 v predpovedaní pohybu akcií — čo je takmer náhoda. Tu je vysvetlenie toho, čo tieto čísla znamenajú pre budovanie spoľahlivého účtovného agenta pre Beancount účtovnú knihu.