Преминете към основното съдържание
Forecasting

Всичко за Forecasting

4 статии
Financial forecasting and runway modelling with AI agents

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

EnterpriseArena тества 11 големи езикови модела (LLM) чрез 132-месечна симулация на финансов директор, проследявайки процента на оцеляване, крайната оценка и степента на приключване на книгите. Само Qwen3.5-9B оцелява в 80% от опитите; GPT-5.4 и DeepSeek-V3.1 достигат 0%. Експертите хора постигат 100% оцеляване при 5 пъти по-висока крайна стойност. Критичното тясно място - LLM пропускат равнението на главната книга в 80% от случаите, действайки въз основа на остаряло финансово състояние.

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.

LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ

Доклад от NeurIPS 2024 Spotlight извършва аблация на три базирани на LLM метода за прогнозиране на времеви редове — OneFitsAll, Time-LLM и CALF — и установява, че премахването на езиковия модел подобрява точността в повечето случаи, с до 1383 пъти по-бързо обучение. За финансови ИИ приложения като прогнозиране на баланса в Beancount, леките, специално създадени за целта модели системно превъзхождат преработените LLM.

FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството

FinBen оценява 15 LLM в 36 финансови масива от данни на NeurIPS 2024, установявайки, че GPT-4 достига 0.63 Точно съвпадение (Exact Match) при числени въпроси и отговори и 0.54 при прогнозиране на движението на акции — близо до случайността. Ето какво означават тези цифри за изграждането на надежден счетоводен агент върху регистър на Beancount.