33 príspevkov so štítkom „Plain-Text Accounting“

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

ReDAct predvolene spúšťa malý model a eskaluje na drahý model len vtedy, keď perplexita na úrovni tokenov signalizuje neistotu, čím dosahuje 64 % úsporu nákladov oproti použitiu iba GPT-5.2 pri zachovaní alebo prekonaní jeho presnosti — model priamo aplikovateľný pre agentov kategorizácie transakcií v Beancounte.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy

Benchmark LLMFinLiteracy zisťuje, že päť modelov s otvorenými váhami o veľkosti približne 7B generuje plne správne transakcie Beancount len v 2,3 % prípadov, pričom zlyhania sa sústreďujú v účtovnom uvažovaní — nie v syntaxi — čo poukazuje na spätnú väzbu kompilátora v slučke ako na kritický chýbajúci prvok pre spoľahlivých agentov na zápis.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM

TableMaster je pipeline založená výhradne na promptingu, ktorá dosahuje 78,13 % v benchmarku WikiTQ s modelom GPT-4o-mini – o 13 bodov viac ako Chain-of-Table – kombinovaním extrakcie tabuľky záujmu, sémantickej verbalizácie a adaptívneho prepínania medzi textovým a symbolickým uvažovaním. Tu je význam tejto architektúry pre AI agentov nad finančnými knihami ako Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch

τ²-bench rozširuje benchmarkovanie agentov na nastavenia s duálnym riadením, kde AI aj používateľ vyvolávajú nástroje nad zdieľaným stavom – pričom zisťuje, že aktívni používatelia znižujú mieru úspešnosti o 18 – 25 percentuálnych bodov, čo má priame dôsledky pre agentov Beancount zdieľajúcich prístup na zápis s ľudskými používateľmi.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu

GAIA testuje 466 reálnych úloh v troch úrovniach náročnosti; hraničné agenty dosiahli v polovici roku 2026 úspešnosť 74,55 % oproti 92 % u ľudí, pričom zostávajúca medzera na úrovni 3 priamo korešponduje s výzvami viacstupňovej koordinácie v automatizovaných pracovných tokoch účtovných kníh Beancount.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

WorkArena testuje webových agentov LLM na 33 reálnych úlohách v systéme ServiceNow – GPT-4o dosahuje celkovú úspešnosť 42,7 %, ale 0 % pri úlohách s filtrovaním zoznamov, čo odhaľuje neprekonateľnú bariéru medzi vypĺňaním formulárov a štruktúrovanou interakciou s UI, ktorá priamo súvisí s výzvami pri automatizácii účtovnej knihy Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov

τ-bench ukazuje, že špičkové LLM ako Claude 3.5 Sonnet klesajú z pass@1 na úrovni 0,692 na pass@4 na úrovni 0,462 v úlohách zákazníckeho servisu v maloobchode – ide o prepad v konzistencii s priamymi dôsledkami pre akéhokoľvek write-back agenta pracujúceho s Beancount účtovnou knihou.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?

TableLlama dolaďuje model Llama 2 (7B) na 2,6 milióna príkladoch tabuľkových úloh a prekonáva GPT-4 v štrukturálnych úlohách, ako je anotácia typov stĺpcov (F1 94 vs 32), ale stráca 33 bodov v kompozičnom uvažovaní WikiTQ — kalibrovaný benchmark toho, čo otvorené 7B modely dnes v oblasti finančnej AI dokážu a čo nie.

Všetko o Plain-Text Accounting

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy

TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM

τ²-bench: Meranie nákladov na duálne riadenie v konverzačných AI agentoch

GAIA Benchmark: Meranie toho, čo hraničné AI agenty skutočne dokážu

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie