EnterpriseArena проводить 11 LLM через 132-місячну симуляцію фінансового директора, відстежуючи виживання, кінцеву оцінку та швидкість закриття звітного періоду. Лише Qwen3.5-9B виживає у 80% запусків; GPT-5.4 та DeepSeek-V3.1 показали 0%. Експерти-люди досягають 100% виживання з у 5 разів вищою кінцевою вартістю. Критичне вузьке місце: LLM пропускають звірку реєстрів у 80% випадків, діючи на основі застарілого фінансового стану.
InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.
У доповіді NeurIPS 2024 Spotlight досліджуються три методи прогнозування часових рядів на основі LLM — OneFitsAll, Time-LLM та CALF. Було виявлено, що видалення мовної моделі покращує точність у більшості випадків і прискорює навчання до 1383 разів. Для фінансових застосунків ШІ, як-от прогнозування балансу Beancount, легкі спеціалізовані моделі стабільно перевершують адаптовані LLM.
FinBen оцінює 15 LLM на 36 фінансових наборах даних на NeurIPS 2024, виявивши, що GPT-4 досягає 0,63 Exact Match у чисельних QA та 0,54 у прогнозуванні руху акцій — що майже на рівні випадковості. Ось що ці цифри означають для побудови надійного бухгалтерського агента для леджера Beancount.