Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Virtuálna správa kontextu pre LLM agentov

MemGPT aplikuje stránkovanie virtuálnej pamäte v štýle operačných systémov na modely LLM, pričom využíva trojúrovňové úložisko — pracovnú pamäť, pamäť pre vyvolanie a archívnu pamäť — aby agentom poskytol trvalé vybavovanie informácií naprieč reláciami; v benchmarkoch viac-reláciových chatov dosahuje MemGPT s GPT-4 presnosť 92,5 % oproti 32,1 % základnej úrovni s pevným kontextom.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-agent (NeurIPS 2024) predstavuje rozhrania agent-počítač (ACI) — účelovo vytvorené vrstvy medzi LLM a softvérovými prostrediami — čím vykazuje 10,7-percentuálne zlepšenie oproti priamemu prístupu k shellu a 12,47 % úspešnosť riešenia v SWE-bench s GPT-4 Turbo. Dizajn rozhrania, nie schopnosti modelu, je primárnym úzkym hrdlom pre autonómne programovacie agenty.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

SWE-bench vyhodnocuje jazykové modely na 2 294 skutočných problémoch GitHub-u v 12 repozitároch Pythonu pomocou testov založených na spustení; v čase publikácie Claude 2 vyriešil iba 1,96 % problémov s realistickým vyhľadávaním, čím vytvoril de facto benchmark pre kódovacích agentov a odhalil zlyhania pri vyhľadávaní a dĺžke opráv priamo relevantné pre write-back agentov Beancount.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Prečo spustiteľný Python kód robí LLM agentov o 20 % presnejšími

CodeAct (ICML 2024) nahrádza volanie nástrojov cez JSON spustiteľným Python kódom, čím zvyšuje mieru úspešnosti agentov GPT-4 o približne 20 percentuálnych bodov pri úlohách s viacerými nástrojmi a znižuje počet interakčných kôl o 30 % — s priamymi dôsledkami pre budovanie spoľahlivých agentov na párovanie v Beancount.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLM zatiaľ nedokážu samy opravovať uvažovanie – zistenia z ICLR 2024 a dôsledky pre finančnú AI

Huang a kol. (ICLR 2024) ukazujú, že LLM vyzvané na kontrolu vlastného uvažovania bez externej spätnej väzby konzistentne znižujú presnosť – GPT-4 klesá z 95,5 % na 91,5 % v teste GSM8K – a čo to znamená pre návrh spoľahlivých agentov pre účtovné zápisy v Beancount.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM

Strom myšlienok (ToT) dosahuje 74 % v Hre 24 oproti 4 % pri štandardnom GPT-4 CoT organizovaním uvažovania LLM do rozvetveného vyhľadávacieho stromu s orezávaním a spätným vyhľadávaním — s priamymi dôsledkami pre viacstupňovú finančnú klasifikáciu a daňovú optimalizáciu v pracovných postupoch Beancount.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

CRITIC (ICLR 2024) dosahuje zlepšenie F1 o 7,7 v QA s otvorenou doménou a 79,2 % zníženie toxicity tým, že revíziu LLM zakladá na signáloch z externých nástrojov – slučka verifikácie a následnej opravy, ktorá sa priamo vzťahuje na bezpečnosť zápisu pre finančných agentov v Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: Jazykoví agenti, ktorí sa učia z chýb bez opätovného trénovania

Reflexion (NeurIPS 2023) umožňuje LLM agentom zlepšovať sa ukladaním verbálnych analýz po zlyhaní do epizodickej vyrovnávacej pamäte – bez potreby aktualizácie váh. S GPT-4 dosahuje 91 % v HumanEval, ale zlyháva vo WebShop-e, čo odhaľuje štrukturálne obmedzenie: verbálne posilňovanie funguje len vtedy, keď evaluátor poskytuje jasný, akcieschopný signál. Tu je vysvetlenie, čo to znamená pre budovanie samoopravného agenta pre účtovnú knihu Beancount.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

Self-consistency nahrádza chamtivé (greedy) dekódovanie chain-of-thought väčšinovým hlasovaním nad N vzorkovanými cestami uvažovania — čím zvyšuje presnosť GPT-3 na GSM8K o 17,9 percentuálneho bodu bez akéhokoľvek doladenia — a je priamo aplikovateľná na viacstupňové finančné výpočty, kde je jedno dekódovanie LLM nespoľahlivé.

Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%

Latest articles

MemGPT: Virtuálna správa kontextu pre LLM agentov

SWE-agent: Ako dizajn rozhrania odomyká automatizované softvérové inžinierstvo

SWE-bench: Dokážu jazykové modely riešiť skutočné problémy na GitHub-e?

CodeAct: Prečo spustiteľný Python kód robí LLM agentov o 20 % presnejšími

LLM zatiaľ nedokážu samy opravovať uvažovanie – zistenia z ICLR 2024 a dôsledky pre finančnú AI

Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

Reflexion: Jazykoví agenti, ktorí sa učia z chýb bez opätovného trénovania

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie