InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия
Повечето бенчмаркове за финансов ИИ тестват дали големите езикови модели (LLM) могат да отговарят на въпроси за финансови данни. InvestorBench задава по-труден въпрос: може ли LLM агент да печели пари? Това е първият бенчмарк, който виждам, поставящ 13 различни базови модела пред действителни (бектествани) задачи за търговия с акции, криптовалути и ETF-и, измервайки кумулативната доходност и коефициента на Шарп, вместо точността на отговорите. Това преминаване от разбиране към вземане на решения е правилната рамка за Bean Labs.
Документът
InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) представя бенчмарк и съпътстваща рамка за агенти за оценка на LLM при финансова търговия. Архитектурата на агента е модулна — „Мозък“ (LLM основата), слой за „Възприятие“, който превръща пазарните данни в текст, и слоеста система от памет с три прозореца на затихване: 14 дни за ежедневни новини, 90 дни за тримесечни отчети и 365 дни за годишни отчети. В момента на вземане на решение, агентът извлича информация от трите слоя и разсъждава за действие от тип покупка/продажба/задържане.
Бенчмаркът обхваща три семейства задачи за единични активи. Търговията с акции използва седем позиции (MSFT, JNJ, TSLA, AAPL и др.), тествани от октомври 2020 г. до май 2021 г. Крипто задачите включват Bitcoin и Ethereum от април до ноември 2023 г. Търговията с ETF-и използва набора от данни NIFTY от януари до септември 2020 г. Всяка задача предоставя OHLCV данни, новинарски статии с етикети за сантимент и SEC отчети или еквивалентни документи. Основните метрики са кумулативна доходност (CR) и коефициент на Шарп (SR).
Ключови идеи
- Дизайнът на слоестата памет (14/90/365-дневни прозорци) отразява начина, по който професионалните анализатори всъщност третират информацията: ежедневното ценово движение, тримесечните печалби и годишният стратегически контекст носят различно времево тегло.
- Размерът на модела е най-силният предсказател за производителността. Моделите с отворен код над 67 милиарда параметъра съвпадат с платените модели по CR и SR при акциите, докато по-малките модели изостават значително. Qwen2.5-72B оглавява класацията за акции с 46,15% CR и SR 1,276 спрямо базовата стратегия „купи и дръж“ с 34,10% CR / 0,732 SR.
- Специфичното за домейна фино настройване се проваля при акциите. Palmyra-Fin-70B — модел, предварително обучен за финанси — показа средно −0,45% CR и SR 0,031 при търговията с акции, което е по-лошо от всеки тестван модел с общо предназначение. Palmyra-Fin-70B се представи добре при ETF-ите (24,76% CR, 1,152 SR), което авторите приписват на задачите за ETF, изискващи по-дългосрочни разсъждения, съобразени с неговото обучение.
- Платените модели (GPT-4, GPT-4o, GPT-o1-preview) постигнаха средно 36,14% CR и SR 0,82 при акциите, което е надеждно над „купи и дръж“, но не драматично. Тяхното по-голямо предимство се вижда при крипто активите, където достигнаха 23,60% CR за BTC срещу 21,82% за „купи и дръж“, докато моделите с отворен код постигнаха средно 14,14%.
- Бенчмаркът е с отворен код и включва инструменти за оценка — практически полезен принос, като се има предвид колко трудно е да се възпроизведат експерименти с търговия.
Какво издържа проверката — и какво не
Архитектурата на слоестата памет е най-принципният избор на дизайн в документа и емпиричното откритие, че тя превъзхожда чистото извличане, базирано на сходство, е правдоподобно и полезно. Корелацията между размер и производителност също е чист резултат.
Основната слабост е, че тестовите периоди са кратки исторически бектестове, а не търговия на живо. Периодът за акциите (октомври 2020 г. – май 2021 г.) съвпада с един от най-необичайните бичи пазари в историята: стимули след COVID, мания по „meme stocks“ и почти нулеви лихви доведоха до масово поскъпване на акциите. Стратегията „купи и дръж“ донесе 34,10% за около седем месеца върху кошница от седем акции. Дали подобренията на LLM агентите над тази цифра отразяват истинска „алфа“ или просто по-агресивно заемане на позиции в растящ пазар, не може да бъде определено от дадените данни. По същия начин периодът на ETF обхваща срива и възстановяването от COVID — режим толкова необичаен, че всеки модел, който случайно е станал дефанзивен през март 2020 г., би изглеждал прозорлив.
Аномалията на Palmyra-Fin-70B — катастрофална при акциите, силна при ETF-ите — не е обяснена задоволително. Ако финото настройване в домейна пренасочва модела към по-дълги времеви хоризонти, това трябваше да се види и в резултатите при акциите. Фактът, че не се вижда, предполага, че резултатът може да е шум в краткия прозорец за бектестване, а не принципна констатация.
Също така липсва сравнение с традиционните алгоритмични базови модели (импулс, връщане към средната стойност, факторни модели). Използването само на „купи и дръж“ като пасивна база поставя ниска летва. Ако просто пресичане на пълзящи средни победи „купи и дръж“ през тези периоди — което често се случва при трендови пазари — сравнението с агента изглежда много по-малко впечатляващо.
Накрая, бенчмаркът тества само решения за единични активи. Реалното управление на портфейл изисква корелирано определяне на размера на позициите, ребалансиране и агрегиране на риска, които задачите с единичен актив не обхващат.