Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy
El benchmark LLMFinLiteracy revela que cinco modelos de pesos abiertos de ~7B generan transacciones de Beancount totalmente correctas solo el 2,3% de las veces, con fallos concentrados en el razonamiento contable —no en la sintaxis—, lo que señala al feedback del compilador en el bucle como el ingrediente crítico que falta para agentes de escritura fiables.
