LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy
O benchmark LLMFinLiteracy revela que cinco modelos de pesos abertos de ~7B geram transações Beancount totalmente corretas apenas 2,3% das vezes, com falhas concentradas no raciocínio contábil — não na sintaxe — apontando o feedback do compilador no loop como o ingrediente crítico que falta para agentes de gravação confiáveis.
