Преминете към основното съдържание

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Повечето бенчмаркове за финансов ИИ тестват дали големите езикови модели (LLM) могат да отговарят на въпроси за финансови данни. InvestorBench задава по-труден въпрос: може ли LLM агент да печели пари? Това е първият бенчмарк, който виждам, поставящ 13 различни базови модела пред действителни (бектествани) задачи за търговия с акции, криптовалути и ETF-и, измервайки кумулативната доходност и коефициента на Шарп, вместо точността на отговорите. Това преминаване от разбиране към вземане на решения е правилната рамка за Bean Labs.

Документът

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) представя бенчмарк и съпътстваща рамка за агенти за оценка на LLM при финансова търговия. Архитектурата на агента е модулна — „Мозък“ (LLM основата), слой за „Възприятие“, който превръща пазарните данни в текст, и слоеста система от памет с три прозореца на затихване: 14 дни за ежедневни новини, 90 дни за тримесечни отчети и 365 дни за годишни отчети. В момента на вземане на решение, агентът извлича информация от трите слоя и разсъждава за действие от тип покупка/продажба/задържане.

Бенчмаркът обхваща три семейства задачи за единични активи. Търговията с акции използва седем позиции (MSFT, JNJ, TSLA, AAPL и др.), тествани от октомври 2020 г. до май 2021 г. Крипто задачите включват Bitcoin и Ethereum от април до ноември 2023 г. Търговията с ETF-и използва набора от данни NIFTY от януари до септември 2020 г. Всяка задача предоставя OHLCV данни, новинарски статии с етикети за сантимент и SEC отчети или еквивалентни документи. Основните метрики са кумулативна доходност (CR) и коефициент на Шарп (SR).

Ключови идеи

  • Дизайнът на слоестата памет (14/90/365-дневни прозорци) отразява начина, по който професионалните анализатори всъщност третират информацията: ежедневното ценово движение, тримесечните печалби и годишният стратегически контекст носят различно времево тегло.
  • Размерът на модела е най-силният предсказател за производителността. Моделите с отворен код над 67 милиарда параметъра съвпадат с платените модели по CR и SR при акциите, докато по-малките модели изостават значително. Qwen2.5-72B оглавява класацията за акции с 46,15% CR и SR 1,276 спрямо базовата стратегия „купи и дръж“ с 34,10% CR / 0,732 SR.
  • Специфичното за домейна фино настройване се проваля при акциите. Palmyra-Fin-70B — модел, предварително обучен за финанси — показа средно −0,45% CR и SR 0,031 при търговията с акции, което е по-лошо от всеки тестван модел с общо предназначение. Palmyra-Fin-70B се представи добре при ETF-ите (24,76% CR, 1,152 SR), което авторите приписват на задачите за ETF, изискващи по-дългосрочни разсъждения, съобразени с неговото обучение.
  • Платените модели (GPT-4, GPT-4o, GPT-o1-preview) постигнаха средно 36,14% CR и SR 0,82 при акциите, което е надеждно над „купи и дръж“, но не драматично. Тяхното по-голямо предимство се вижда при крипто активите, където достигнаха 23,60% CR за BTC срещу 21,82% за „купи и дръж“, докато моделите с отворен код постигнаха средно 14,14%.
  • Бенчмаркът е с отворен код и включва инструменти за оценка — практически полезен принос, като се има предвид колко трудно е да се възпроизведат експерименти с търговия.

Какво издържа проверката — и какво не

Архитектурата на слоестата памет е най-принципният избор на дизайн в документа и емпиричното откритие, че тя превъзхожда чистото извличане, базирано на сходство, е правдоподобно и полезно. Корелацията между размер и производителност също е чист резултат.

Основната слабост е, че тестовите периоди са кратки исторически бектестове, а не търговия на живо. Периодът за акциите (октомври 2020 г. – май 2021 г.) съвпада с един от най-необичайните бичи пазари в историята: стимули след COVID, мания по „meme stocks“ и почти нулеви лихви доведоха до масово поскъпване на акциите. Стратегията „купи и дръж“ донесе 34,10% за около седем месеца върху кошница от седем акции. Дали подобренията на LLM агентите над тази цифра отразяват истинска „алфа“ или просто по-агресивно заемане на позиции в растящ пазар, не може да бъде определено от дадените данни. По същия начин периодът на ETF обхваща срива и възстановяването от COVID — режим толкова необичаен, че всеки модел, който случайно е станал дефанзивен през март 2020 г., би изглеждал прозорлив.

Аномалията на Palmyra-Fin-70B — катастрофална при акциите, силна при ETF-ите — не е обяснена задоволително. Ако финото настройване в домейна пренасочва модела към по-дълги времеви хоризонти, това трябваше да се види и в резултатите при акциите. Фактът, че не се вижда, предполага, че резултатът може да е шум в краткия прозорец за бектестване, а не принципна констатация.

Също така липсва сравнение с традиционните алгоритмични базови модели (импулс, връщане към средната стойност, факторни модели). Използването само на „купи и дръж“ като пасивна база поставя ниска летва. Ако просто пресичане на пълзящи средни победи „купи и дръж“ през тези периоди — което често се случва при трендови пазари — сравнението с агента изглежда много по-малко впечатляващо.

Накрая, бенчмаркът тества само решения за единични активи. Реалното управление на портфейл изисква корелирано определяне на размера на позициите, ребалансиране и агрегиране на риска, които задачите с единичен актив не обхващат.

Защо това е важно за финансовия ИИ

Архитектурата на слоестата памет се пренася директно към Beancount. Агентът за счетоводни регистри трябва да разсъждава в различни времеви мащаби едновременно: какво се е случило в днешната сесия за импортиране (плитко), какво разкрива тримесечие от транзакции за бюджета (междинно) и какво казват многогодишните модели за финансовото здраве на сметката (дълбоко). Разслояването на 14/90/365 дни на InvestorBench предоставя конкретен шаблон за дизайн, който си струва да бъде зает, дори ако контекстът на търговията се различава от счетоводството.

Находката за Palmyra-Fin-70B също носи предупреждение за усилията за фино настройване на Beancount. Модел, обучен интензивно върху финансови текстове, не взема автоматично по-добри решения като агент — разликата между владеенето на финансовия език и компетентността за финансови разсъждения е реална. Ако Bean Labs някога фино настрои модел върху синтаксиса на Beancount и счетоводните правила, оценката на агента трябва да тества качеството на решенията, а не само изходния формат.

Липсата на оценка на безопасността при запис (write-back safety) в бенчмарка е празнина, която Bean Labs може да запълни. Агентите в InvestorBench могат само да загубят пари; агентите в Beancount могат да корумпират счетоводния регистър. Рамката за оценка се нуждае от измерение за необратимост, което бенчмарковете за търговия нямат причина да включват.

Какво да прочетете след това

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — архитектурата на слоестата памет, която InvestorBench разширява; четенето на оригиналния дизайн изяснява какво всъщност добавя InvestorBench.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — изследва многоагентна търговия, базирана на дебати, директен контраст с резултата за единичен агент от дневника от миналата седмица.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — съобщава се, че оценява агенти върху прогнозни данни за пазара на живо, вместо върху исторически бектестове; разглежда опасенията за пристрастие към оцелелите (survivorship bias), които повдигнах тук.