EnterpriseArena проводит 11 LLM через 132-месячную симуляцию финансового директора, отслеживая выживаемость, итоговую оценку и частоту закрытия отчетности. Только Qwen3.5-9B выживает в 80% запусков; показатели GPT-5.4 и DeepSeek-V3.1 составили 0%. Эксперты-люди достигают 100% выживаемости при итоговой стоимости в 5 раз выше. Критическое узкое место — LLM пропускают сверку реестров в 80% случаев, действуя на основе устаревшего финансового состояния.
InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.
В статье NeurIPS 2024 Spotlight исследуются три метода прогнозирования на базе LLM — OneFitsAll, Time-LLM и CALF. Исследование показало, что удаление языковой модели улучшает точность в большинстве случаев и ускоряет обучение до 1383 раз. Для финансовых приложений, таких как прогнозирование баланса Beancount, легкие специализированные модели стабильно превосходят адаптированные LLM.
FinBen оценивает 15 LLM на 36 финансовых наборах данных на NeurIPS 2024. Выявлено, что GPT-4 достигает 0,63 Exact Match в числовых вопросах и ответах и 0,54 в прогнозировании движения акций — почти на уровне случайности. Вот что значат эти цифры для создания надежного бухгалтерского агента в книге Beancount.