Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Virtueel contextbeheer voor LLM-agenten

MemGPT past OS-stijl virtuele geheugenpaging toe op LLM's, gebruikmakend van opslag in drie niveaus — werkgeheugen, recall en archief — om agenten persistent geheugen over sessies heen te geven; op chatbenchmarks voor meerdere sessies behaalt MemGPT met GPT-4 een nauwkeurigheid van 92,5% tegenover een baseline van 32,1% bij een vaste context.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?

SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt

CodeAct (ICML 2024) vervangt JSON-tool-aanroepen door uitvoerbare Python-code, waardoor het succespercentage van GPT-4-agents met ~20 procentpunten verbetert bij taken met meerdere tools en de interactierondes met 30% worden verminderd — met directe gevolgen voor het bouwen van betrouwbare Beancount-reconciliatie-agents.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI

Huang et al. (ICLR 2024) tonen aan dat LLM's die hun eigen redeneringen moeten herzien zonder externe feedback, consequent in nauwkeurigheid afnemen — GPT-4 zakt van 95,5% naar 91,5% op GSM8K — en wat dit betekent voor het ontwerpen van betrouwbare agenten voor Beancount-boekingen.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen

Tree of Thoughts (ToT) behaalt 74% op Game of 24 tegenover 4% voor standaard GPT-4 CoT door LLM-redeneringen te organiseren in een vertakkende zoekboom met pruning en backtracking — met directe implicaties voor meerstaps financiële classificatie en belastingoptimalisatie in Beancount-workflows.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist

CRITIC (ICLR 2024) behaalt een F1-winst van 7,7 op open-domein QA en een toxiciteitsreductie van 79,2% door LLM-revisie te baseren op signalen van externe tools — een 'verifieer-dan-corrigeer'-lus die direct aansluit op de veiligheid van terugschrijven voor financiële Beancount-agents.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: Taalagenten die leren van fouten zonder hertraining

Reflexion (NeurIPS 2023) stelt LLM-agenten in staat om te verbeteren door verbale post-mortems op te slaan in een episodische buffer — geen gewichtsupdates vereist. Het bereikt 91% op HumanEval met GPT-4, maar faalt op WebShop, wat een structurele beperking onthult: verbale bekrachtiging werkt alleen wanneer de evaluator een helder, bruikbaar signaal afgeeft. Dit is wat dat betekent voor het bouwen van een zelfcorrigerende Beancount-grootboekagent.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.

Gorilla: Hoe Retrieval-Aware Training LLM API-hallucinaties vermindert van 78% naar 11%

Latest articles

MemGPT: Virtueel contextbeheer voor LLM-agenten

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?

CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt

LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI

Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen

CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist

Reflexion: Taalagenten die leren van fouten zonder hertraining

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch