InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі
Більшість бенчмарків ШІ у сфері фінансів перевіряють, чи можуть LLM відповідати на запитання про фінансові дані. InvestorBench ставить складніше питання: чи може агент LLM заробляти гроші? Це перший бенчмарк, який я бачив, що проводить 13 різних базових моделей через реальні завдання з торгівлі (через бектестування) акціями, криптовалютою та ETF, вимірюючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Цей перехід від розуміння до прийняття рішень — правильний підхід для Bean Labs.
Стаття
InvestorBench (Li та ін., arXiv:2412.18174, ACL 2025) представляє бенчмарк та супутню архітектуру агентів для оцінки LLM у фінансовій торгівлі. Архітектура агента є модульною: Мозок (базова LLM), рівень Сприйняття, що перетворює ринкові дані на текст, та багаторівнева система пам'яті з трьома вікнами згасання: 14 днів для щоденних новин, 90 днів для квартальних звітів та 365 днів для річних звітів. Під час прийняття рішення агент здійснює пошук у всіх трьох рівнях і вибудовує логіку для дії «купити/продати/утримувати».
Бенчмарк охоплює три сімейства завдань з одним активом. Торгівля акціями використовує сім цінних паперів (MSFT, JNJ, TSLA, AAPL тощо), протестованих з жовтня 2020 по травень 2021 року. Криптовалюта охоплює Bitcoin та Ethereum з квітня по листопад 2023 року. Торгівля ETF використовує набір даних NIFTY з січня по вересень 2020 року. Кожне завдання містить дані OHLCV, новини з мітками настроїв та звіти SEC або їх аналоги. Основними метриками є кумулятивна прибутковість (CR) та коефіцієнт Шарпа (SR).
Ключові ідеї
- Багаторівневий дизайн пам'яті (вікна згасання на 14/90/365 днів) відображає те, як професійні аналітики насправді працюють з інформацією: щоденна динаміка цін, квартальні прибутки та річний стратегічний контекст мають різну часову вагу.
- Розмір моделі є найсильнішим прогнозистом ефективності. Моделі з відкритим вихідним кодом понад 67B параметрів не поступаються пропрієтарним моделям за показниками CR та SR у торгівлі акціями, тоді як менші моделі значно відстають. Qwen2.5-72B очолює таблицю лідерів акцій з 46,15% CR та SR 1,276 проти базової стратегії «купити та утримувати» з 34,10% CR / 0,732 SR.
- Доменне донавчання дає зворотний ефект на акціях. Palmyra-Fin-70B — модель, попередньо навчена на фінансах — показала в середньому −0,45% CR та SR 0,031 у торгівлі акціями, що гірше за кожну протестовану модель загального призначення. Palmyra-Fin-70B добре показала себе на ETF (24,76% CR, 1,152 SR), що автори пов'язують із необхідністю більш довгострокового планування в завданнях з ETF, що відповідає її навчанню.
- Пропрієтарні моделі (GPT-4, GPT-4o, GPT-o1-preview) показали в середньому 36,14% CR та SR 0,82 на акціях, що стабільно вище стратегії «купити та утримувати», але не суттєво. Їхня більша перевага помітна в криптовалюті, де вони досягли 23,60% CR для BTC проти 21,82% у «купити та утримувати», тоді як моделі з відкритим кодом показали в середньому 14,14%.
- Бенчмарк є відкритим і включає інструменти для оцінки — це практично корисний внесок, враховуючи, наскільки важко відтворити експерименти з торгівлі.
Що витримує критику, а що ні
Багаторівнева архітектура пам'яті є найбільш обґрунтованим дизайнерським рішенням у статті, а емпіричний висновок про те, що вона перевершує пошук лише за схожістю, є правдоподібним і корисним. Кореляція між розміром та продуктивністю також є чітким результатом.
Основним недоліком є те, що тестові періоди — це короткі історичні бектести, а не торгівля в реальному часі. Період акцій (жовтень 2020 – травень 2021) збігається з одним із найбільш незвичайних «бичачих» ринків в історії: стимулювання після COVID, божевілля навколо мем-акцій та майже нульові ставки сприяли загальному зростанню капіталу. Стратегія «купити та утримувати» принесла 34,10% приблизно за сім місяців на кошику з семи акцій. Чи відображають покращення агентів LLM понад це число справжню альфу, чи просто більш агресивне відкриття позицій на зростаючому ринку, неможливо визначити з наданих даних. Аналогічно, період ETF охоплює крах через COVID та відновлення — режим настільки аномальний, що будь-яка модель, яка випадково перейшла в оборону в березні 2020 року, виглядала б пророчою.
Аномалія Palmyra-Fin-70B — катастрофічні результати на акціях, сильні на ETF — не пояснена задовільно. Якщо доменне донавчання переорієнтовує модель на довші часові горизонти, це мало б проявитися і в результатах по акціях. Той факт, що цього не сталося, свідчить про те, що результат може бути випадковим шумом у короткому вікні бектестування, а не принциповою знахідкою.
Також відсутнє порівняння з традиційними алгоритмічними базами (моментум, повернення до середнього, факторні моделі). Використання лише «купити та утримувати» як пасивного орієнтира встановлює низьку планку. Якщо просте перетинання ковзних середніх б'є «купити та утримувати» в ці періоди — що часто трапляється на трендових ринках — порівняння з агентом виглядає набагато менш вражаючим.
Нарешті, бенчмарк тестує рішення лише щодо одного активу. Справжнє управління портфелем вимагає корельованого розрахунку розміру позицій, ребалансування та агрегації ризиків, чого завдання з одним активом не охоплюють.