Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

MemGPT überträgt das Konzept der virtuellen Speicherverwaltung von Betriebssystemen auf LLMs und nutzt einen dreistufigen Speicher – Arbeitsspeicher, Recall-Speicher und Archivspeicher –, um Agenten ein persistentes Gedächtnis über Sitzungen hinweg zu ermöglichen. In Multi-Session-Chat-Benchmarks erreicht MemGPT mit GPT-4 eine Genauigkeit von 92,5 %, verglichen mit einer Baseline von 32,1 % bei festem Kontext.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Können Sprachmodelle reale GitHub-Issues lösen?

SWE-bench evaluiert Sprachmodelle anhand von 2.294 realen GitHub-Issues aus 12 Python-Repositories mittels ausführungsbasierter Tests; zum Zeitpunkt der Veröffentlichung löste Claude 2 nur 1,96 % der Probleme bei realistischer Informationsbeschaffung (Retrieval), was den De-facto-Benchmark für Coding-Agenten etablierte und Fehlerquellen bei Retrieval und Patch-Länge aufzeigte, die direkt relevant für Beancount-Write-Back-Agenten sind.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Warum ausführbarer Python-Code LLM-Agenten um 20 % genauer macht

CodeAct (ICML 2024) ersetzt JSON-Tool-Calling durch ausführbaren Python-Code. Dies verbessert die Erfolgsraten von GPT-4-Agenten bei Multi-Tool-Aufgaben um ca. 20 Prozentpunkte und reduziert die Interaktionsschritte um 30 % – mit direkten Auswirkungen auf die Entwicklung zuverlässiger Beancount-Abgleich-Agenten.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLMs können Logikfehler noch nicht selbst korrigieren — ICLR 2024 Ergebnisse und Auswirkungen auf Finance AI

Huang et al. (ICLR 2024) zeigen, dass LLMs, die aufgefordert werden, ihre eigene Logik ohne externes Feedback zu überprüfen, die Genauigkeit konsequent verschlechtern – GPT-4 sinkt bei GSM8K von 95,5 % auf 91,5 % – und was dies für das Design zuverlässiger Beancount-Buchungsagenten bedeutet.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Tree of Thoughts: Bewusste Problemlösung mit LLM-Suche

Tree of Thoughts (ToT) erreicht 74 % im Game of 24 gegenüber 4 % bei Standard-GPT-4-CoT, indem LLM-Argumentation in einem verzweigten Suchbaum mit Pruning und Backtracking organisiert wird – mit direkten Auswirkungen auf mehrstufige Finanzklassifizierung und Steueroptimierung in Beancount-Workflows.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

CRITIC (ICLR 2024) erzielt 7,7 F1-Gewinne bei Open-Domain QA und eine Toxizitätsreduzierung von 79,2 %, indem die LLM-Revision in externen Werkzeugsignalen verankert wird – eine Verify-then-Correct-Schleife, die direkt auf die Rückschreibsicherheit für Beancount-Finanzagenten übertragbar ist.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: Sprach-Agenten, die aus Fehlern lernen, ohne neu trainiert zu werden

Reflexion (NeurIPS 2023) ermöglicht es LLM-Agenten, sich zu verbessern, indem sie verbale Post-Mortems in einem episodischen Puffer speichern – ganz ohne Gewichtungsaktualisierungen. Es erreicht 91 % bei HumanEval mit GPT-4, scheitert jedoch bei WebShop, was eine strukturelle Einschränkung offenbart: Verbales bestärkendes Lernen funktioniert nur, wenn der Evaluator ein klares, umsetzbares Signal liefert. Hier erfahren Sie, was das für den Aufbau eines selbstkorrigierenden Beancount-Hauptbuch-Agenten bedeutet.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit

Self-Consistency ersetzt das Greedy-Chain-of-Thought-Decoding durch eine Mehrheitsentscheidung über N gesampelte Argumentationspfade. Dies steigert die GPT-3-Genauigkeit bei GSM8K um 17,9 Prozentpunkte ohne jegliches Fine-Tuning und lässt sich direkt auf mehrstufige Finanzberechnungen anwenden, bei denen ein einzelner LLM-Durchlauf unzuverlässig ist.

Gorilla: Wie Retrieval-Aware Training LLM-API-Halluzinationen von 78 % auf 11 % reduziert

Latest articles

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

SWE-bench: Können Sprachmodelle reale GitHub-Issues lösen?

CodeAct: Warum ausführbarer Python-Code LLM-Agenten um 20 % genauer macht

LLMs können Logikfehler noch nicht selbst korrigieren — ICLR 2024 Ergebnisse und Auswirkungen auf Finance AI

Tree of Thoughts: Bewusste Problemlösung mit LLM-Suche

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

Reflexion: Sprach-Agenten, die aus Fehlern lernen, ohne neu trainiert zu werden

Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches