Перейти к контенту
Financial Literacy

Все о Financial Literacy

2 статей
Research on financial knowledge representation and LLM competency

LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

FinMaster (arXiv:2505.13533) оценивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.