LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy
Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.
