4 Posts getaggt mit „Transaction Validation“

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

AILLMMachine LearningAutomationBeancountTransaction Validation

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

CRITIC (ICLR 2024) erzielt 7,7 F1-Gewinne bei Open-Domain QA und eine Toxizitätsreduzierung von 79,2 %, indem die LLM-Revision in externen Werkzeugsignalen verankert wird – eine Verify-then-Correct-Schleife, die direkt auf die Rückschreibsicherheit für Beancount-Finanzagenten übertragbar ist.

Alles Über Transaction Validation

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches