Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy
El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.
