LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy
Бенчмарк LLMFinLiteracy вияви в, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.
