Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?

TableLlama dolaďuje model Llama 2 (7B) na 2,6 milióna príkladoch tabuľkových úloh a prekonáva GPT-4 v štrukturálnych úlohách, ako je anotácia typov stĺpcov (F1 94 vs 32), ale stráca 33 bodov v kompozičnom uvažovaní WikiTQ — kalibrovaný benchmark toho, čo otvorené 7B modely dnes v oblasti finančnej AI dokážu a čo nie.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Slabo dohliadané tabuľkové QA bez SQL a čo to znamená pre Beancount

TAPAS (Google Research, ACL 2020) odpovedá na tabuľkové otázky výberom buniek a aplikovaním skalárnych agregácií – bez generovania SQL. Tento príspevok analyzuje architektúru, jej 12-bodový nárast presnosti SQA a prečo paradigma výberu buniek vyhovuje malým dopytom v Beancount účtovných knihách, ale zlyháva pri väčšom rozsahu.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Spolupráca viacerých agentov pri prevode textu na SQL

MAC-SQL (COLING 2025) využíva troch špecializovaných agentov — Selector na redukciu schémy, Decomposer na dekompozíciu otázok a Refiner na opravu SQL riadenú vykonávaním — na dosiahnutie 59,59 % presnosti vykonávania v benchmarku BIRD; ablácia ukazuje, že Refiner prispieva najviac (+4,63 bodu), s priamymi dôsledkami pre generovanie dopytov v účtovných knihách Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Dekomponované učenie v kontexte pre Text-to-SQL

DIN-SQL (NeurIPS 2023) rozkladá proces text-to-SQL na fázy prepájania schém, klasifikácie zložitosti a generovania SQL, čím zvyšuje presnosť vykonávania GPT-4 na benchmarku Spider zo 67,4 % na 85,3 % bez jemného ladenia – a tá istá stratégia dekompozície sa priamo prenáša na rozhrania v prirodzenom jazyku pre dopytovací jazyk BQL nástroja Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRD Benchmark: Priepasť medzi reálnymi databázami a LLM pri prevode textu na SQL

Benchmark BIRD (NeurIPS 2023) testuje LLM na 95 reálnych databázach – GPT-4 dosahuje len 54,89 % presnosť vykonávania s doménovými nápovedami a 34,88 % bez nich. Tento 20-bodový rozdiel priamo definuje výzvy, ktoré by muselo riešiť rozhranie BQL v prirodzenom jazyku pre Beancount.

AILLMSecurityAutomationBeancountComplianceTrust

Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP

Výskumníci z CMU a NC State navrhujú využitie systémovo-teoretickej analýzy procesov (STPA) a rozšíreného protokolu Model Context Protocol na odvodenie formálnych bezpečnostných špecifikácií pre používanie nástrojov LLM agentmi, pričom verifikácia založená na nástroji Alloy demonštruje absenciu nebezpečných tokov v prípadovej štúdii plánovania kalendára.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Od lokálnej po globálnu sumarizáciu zameranú na dopyty

GraphRAG od Microsoftu buduje graf entít rozdelený podľa Leidenského algoritmu nad textovým korpusom a vopred vypočítava súhrny komunít pre zodpovedanie globálnych otázok o zmysle údajov, ktoré štandardný vektorový RAG nezvláda – audit skreslenia z roku 2025 však ukazuje, že jeho 72 – 83 % miera víťazstiev kolabuje po oprave artefaktov pozície a dĺžky pri vyhodnocovaní pomocou LLM ako sudcu.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL

FinAuditing testuje 13 LLM modelov metódou zero-shot na 1 102 reálnych prípadoch podaní SEC XBRL; najlepšie výsledky sú 13,86 % pri overovaní finančnej matematiky a 12,42 % pri vyhľadávaní konceptov – výsledky, ktoré priamo vymedzujú, do akej miery možno dôverovať automatizácii nástrojov AI účtovníctva bez externých nástrojov.

τ-bench: Meranie spoľahlivosti AI agentov v reálnych doménach s použitím nástrojov

Latest articles

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?

TAPAS: Slabo dohliadané tabuľkové QA bez SQL a čo to znamená pre Beancount

MAC-SQL: Spolupráca viacerých agentov pri prevode textu na SQL

DIN-SQL: Dekomponované učenie v kontexte pre Text-to-SQL

BIRD Benchmark: Priepasť medzi reálnymi databázami a LLM pri prevode textu na SQL

Overiteľne bezpečné používanie nástrojov pre LLM agentov: STPA sa stretáva s MCP

GraphRAG: Od lokálnej po globálnu sumarizáciu zameranú na dopyty

FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie