Перейти до основного вмісту
Forecasting

Все про Forecasting

4 статті
Financial forecasting and runway modelling with AI agents

Чи можуть LLM-агенти бути фінансовими директорами? 132-місячна симуляція EnterpriseArena виявляє великий розрив

EnterpriseArena проводить 11 LLM через 132-місячну симуляцію фінансового директора, відстежуючи виживання, кінцеву оцінку та швидкість закриття звітного періоду. Лише Qwen3.5-9B виживає у 80% запусків; GPT-5.4 та DeepSeek-V3.1 показали 0%. Експерти-люди досягають 100% виживання з у 5 разів вищою кінцевою вартістю. Критичне вузьке місце: LLM пропускають звірку реєстрів у 80% випадків, діючи на основі застарілого фінансового стану.

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.

LLM не корисні для прогнозування часових рядів: що означає NeurIPS 2024 для ШІ у фінансах

У доповіді NeurIPS 2024 Spotlight досліджуються три методи прогнозування часових рядів на основі LLM — OneFitsAll, Time-LLM та CALF. Було виявлено, що видалення мовної моделі покращує точність у більшості випадків і прискорює навчання до 1383 разів. Для фінансових застосунків ШІ, як-от прогнозування балансу Beancount, легкі спеціалізовані моделі стабільно перевершують адаптовані LLM.

FinBen: Бенчмаркінг LLM у 36 фінансових завданнях — наслідки для ШІ в бухгалтерському обліку

FinBen оцінює 15 LLM на 36 фінансових наборах даних на NeurIPS 2024, виявивши, що GPT-4 досягає 0,63 Exact Match у чисельних QA та 0,54 у прогнозуванні руху акцій — що майже на рівні випадковості. Ось що ці цифри означають для побудови надійного бухгалтерського агента для леджера Beancount.