Zum Hauptinhalt springen
Transaction Validation

Alles Über Transaction Validation

4 Artikel
Validating and verifying financial transactions using language model agents

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.