Перейти до основного вмісту
Financial Literacy

Все про Financial Literacy

2 статті
Research on financial knowledge representation and LLM competency

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

Бенчмарк FinMaster: чому LLM отримують 96% за фінансову грамотність, але лише 3% за формування звітності

FinMaster (arXiv:2505.13533) тестує o3-mini, Claude 3.7 Sonnet та DeepSeek-V3 у 183 фінансових завданнях — виявляючи, що моделі отримують 96% за фінансову грамотність, але падають до 3% у формуванні звітності, причому багатоетапні консалтингові завдання втрачають 21 пункт точності через поширення помилок.