Перейти к контенту

InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Большинство бенчмарков ИИ в финансах проверяют, могут ли LLM отвечать на вопросы о финансовых данных. InvestorBench ставит более сложный вопрос: может ли LLM-агент зарабатывать деньги? Это первый бенчмарк, который я видел, где 13 различных базовых моделей проходят через реальные задачи трейдинга (на исторических данных) с акциями, криптовалютами и ETF, измеряя накопленную доходность и коэффициент Шарпа вместо точности ответов. Этот переход от понимания к принятию решений является правильным направлением для Bean Labs.

Статья

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) представляет бенчмарк и сопутствующий фреймворк агентов для оценки LLM в финансовом трейдинге. Архитектура агента модульная: «Мозг» (базовая LLM), уровень восприятия (Perception), который преобразует рыночные данные в текст, и многоуровневая система памяти с тремя окнами затухания: 14 дней для ежедневных новостей, 90 дней для квартальных отчетов и 365 дней для годовых отчетов. В момент принятия решения агент извлекает данные из всех трех уровней и рассуждает, выбирая действие: покупку, продажу или удержание (buy/sell/hold).

Бенчмарк охватывает три семейства задач для отдельных активов. Торговля акциями использует семь ценных бумаг (MSFT, JNJ, TSLA, AAPL и др.), протестированных с октября 2020 года по май 2021 года. Криптовалюты охватывают Bitcoin и Ethereum с апреля по ноябрь 2023 года. Торговля ETF использует набор данных NIFTY с января по сентябрь 2020 года. Каждая задача предоставляет данные OHLCV, новостные статьи с метками настроений и отчеты SEC или их аналоги. Основными метриками являются накопленная доходность (CR) и коэффициент Шарпа (SR).

Ключевые идеи

  • Многоуровневая архитектура памяти (окна затухания в 14/90/365 дней) отражает то, как профессиональные аналитики на самом деле обрабатывают информацию: ежедневные колебания цен, квартальная прибыль и годовой стратегический контекст имеют разный временной вес.
  • Размер модели — самый сильный предиктор производительности. Open-source модели с параметрами более 67 млрд не уступают проприетарным моделям в показателях CR и SR для акций, тогда как модели меньшего размера значительно отстают. Qwen2.5-72B возглавляет рейтинг акций с CR 46,15% и SR 1,276 по сравнению с базовым сценарием «купи и держи» (buy-and-hold) с CR 34,10% / SR 0,732.
  • Специализированная настройка под домен (domain-specific fine-tuning) дает обратный эффект на акциях. Palmyra-Fin-70B — модель, предварительно обученная на финансовых данных — показала в среднем −0,45% CR и 0,031 SR в торговле акциями, что хуже всех протестированных моделей общего назначения. Palmyra-Fin-70B хорошо показала себя в ETF (24,76% CR, 1,152 SR), что авторы связывают с тем, что задачи ETF требуют более долгосрочного планирования, соответствующего её обучению.
  • Проприетарные модели (GPT-4, GPT-4o, GPT-o1-preview) в среднем показали CR 36,14% и SR 0,82 на акциях, что стабильно выше стратегии «купи и держи», но не кардинально. Их преимущество более заметно в криптовалютах, где они достигли 23,60% CR для BTC против 21,82% при стратегии «купи и держи», в то время как open-source модели показали в среднем 14,14%.
  • Бенчмарк является открытым и включает инструменты для оценки — это практически полезный вклад, учитывая сложность воспроизведения торговых экспериментов.

Что заслуживает доверия, а что — нет

Многоуровневая архитектура памяти — самое обоснованное проектное решение в статье, и эмпирический вывод о том, что она превосходит поиск только на основе сходства (similarity-based retrieval), выглядит правдоподобным и полезным. Корреляция размера и производительности также является четким результатом.

Главная слабость заключается в том, что тестовые периоды — это короткие исторические бэктесты, а не торговля в реальном времени. Период акций (октябрь 2020 – май 2021) совпадает с одним из самых необычных «бычьих» рынков в истории: стимулы после COVID, безумие мем-акций и почти нулевые ставки привели к широкому росту котировок. Стратегия «купи и держи» принесла 34,10% прибыли примерно за семь месяцев на корзине из семи акций. На основе предоставленных данных невозможно определить, отражают ли улучшения LLM-агентов реальную альфу или просто более агрессивное открытие позиций на растущем рынке. Аналогично, период ETF охватывает крах и восстановление после COVID — режим настолько аномальный, что любая модель, которая случайно перешла в оборону в марте 2020 года, выглядела бы провидческой.

Аномалия Palmyra-Fin-70B — катастрофические результаты на акциях и сильные на ETF — не получила удовлетворительного объяснения. Если дообучение на домене переориентирует модель на более длительные временные горизонты, это должно проявляться и в результатах по акциям. Тот факт, что этого не происходит, наводит на мысль, что результат может быть шумом в коротком окне бэктестинга, а не закономерностью.

Также отсутствует сравнение с традиционными алгоритмическими базовыми сценариями (импульс, возврат к среднему, факторные модели). Использование только «купи и держи» в качестве пассивного ориентира устанавливает низкую планку. Если простое пересечение скользящих средних побеждает «купи и держи» в эти периоды — что часто случается на трендовых рынках — сравнение агентов выглядит гораздо менее впечатляющим.

Наконец, бенчмарк тестирует решения только по отдельным активам. Реальное управление портфелем требует коррелированного определения размеров позиций, ребалансировки и агрегации рисков, чего задачи по отдельным активам не учитывают.

Почему это важно для ИИ в финансах

Многоуровневая архитектура памяти напрямую применима к Beancount. Леджер-агенту (ledger agent) необходимо одновременно рассуждать в разных временных масштабах: что произошло в сегодняшней сессии импорта (поверхностный уровень), что квартал транзакций говорит о бюджете (промежуточный) и какие многолетние паттерны свидетельствуют о состоянии счетов (глубокий). Уровни 14/90/365 дней из InvestorBench предоставляют конкретный шаблон проектирования, который стоит заимствовать, даже если контекст трейдинга отличается от бухгалтерии.

Результаты Palmyra-Fin-70B также служат предупреждением для попыток дообучения (fine-tuning) в контексте Beancount. Модель, интенсивно обученная на финансовых текстах, не начинает автоматически принимать лучшие агентские решения — разрыв между свободным владением финансовым языком и компетенцией в финансовых рассуждениях реален. Если Bean Labs когда-либо будет дообучать модель на синтаксисе Beancount и правилах учета, оценка агента должна проверять качество принятия решений, а не только формат вывода.

Отсутствие в бенчмарке оценки безопасности записи (write-back safety) — это явный пробел, который может заполнить Bean Labs. Агенты InvestorBench могут только потерять деньги; агенты Beancount могут повредить леджер. Фреймворку оценки необходимо измерение необратимости (irreversibility), которое торговым бенчмаркам учитывать нет необходимости.

Что читать дальше

  • FinMem: Торговый LLM-агент с повышенной производительностью, многоуровневой памятью и дизайном персонажей (Yu et al., arXiv:2311.07743) — архитектура многоуровневой памяти, которую расширяет InvestorBench; чтение оригинала проясняет, что именно добавил InvestorBench.
  • TradingAgents: Мультиагентный фреймворк для финансовой торговли на базе LLM (OpenReview 2024) — исследует мультиагентную торговлю на основе дискуссий, что прямо контрастирует с результатом для одного агента из лога прошлой недели.
  • StockBench: Могут ли LLM-агенты выгодно торговать акциями на реальных рынках? (arXiv:2510.02209) — по имеющимся данным, оценивает агентов на основе перспективных данных реального рынка, а не исторических бэктестов; решает проблему ошибки выжившего (survivorship bias), которую я поднял здесь.