LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy
Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.
