LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark
Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.
