Перейти до основного вмісту

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Більшість бенчмарків ШІ у сфері фінансів перевіряють, чи можуть LLM відповідати на запитання про фінансові дані. InvestorBench ставить складніше питання: чи може агент LLM заробляти гроші? Це перший бенчмарк, який я бачив, що проводить 13 різних базових моделей через реальні завдання з торгівлі (через бектестування) акціями, криптовалютою та ETF, вимірюючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Цей перехід від розуміння до прийняття рішень — правильний підхід для Bean Labs.

Стаття

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li та ін., arXiv:2412.18174, ACL 2025) представляє бенчмарк та супутню архітектуру агентів для оцінки LLM у фінансовій торгівлі. Архітектура агента є модульною: Мозок (базова LLM), рівень Сприйняття, що перетворює ринкові дані на текст, та багаторівнева система пам'яті з трьома вікнами згасання: 14 днів для щоденних новин, 90 днів для квартальних звітів та 365 днів для річних звітів. Під час прийняття рішення агент здійснює пошук у всіх трьох рівнях і вибудовує логіку для дії «купити/продати/утримувати».

Бенчмарк охоплює три сімейства завдань з одним активом. Торгівля акціями використовує сім цінних паперів (MSFT, JNJ, TSLA, AAPL тощо), протестованих з жовтня 2020 по травень 2021 року. Криптовалюта охоплює Bitcoin та Ethereum з квітня по листопад 2023 року. Торгівля ETF використовує набір даних NIFTY з січня по вересень 2020 року. Кожне завдання містить дані OHLCV, новини з мітками настроїв та звіти SEC або їх аналоги. Основними метриками є кумулятивна прибутковість (CR) та коефіцієнт Шарпа (SR).

Ключові ідеї

  • Багаторівневий дизайн пам'яті (вікна згасання на 14/90/365 днів) відображає те, як професійні аналітики насправді працюють з інформацією: щоденна динаміка цін, квартальні прибутки та річний стратегічний контекст мають різну часову вагу.
  • Розмір моделі є найсильнішим прогнозистом ефективності. Моделі з відкритим вихідним кодом понад 67B параметрів не поступаються пропрієтарним моделям за показниками CR та SR у торгівлі акціями, тоді як менші моделі значно відстають. Qwen2.5-72B очолює таблицю лідерів акцій з 46,15% CR та SR 1,276 проти базової стратегії «купити та утримувати» з 34,10% CR / 0,732 SR.
  • Доменне донавчання дає зворотний ефект на акціях. Palmyra-Fin-70B — модель, попередньо навчена на фінансах — показала в середньому −0,45% CR та SR 0,031 у торгівлі акціями, що гірше за кожну протестовану модель загального призначення. Palmyra-Fin-70B добре показала себе на ETF (24,76% CR, 1,152 SR), що автори пов'язують із необхідністю більш довгострокового планування в завданнях з ETF, що відповідає її навчанню.
  • Пропрієтарні моделі (GPT-4, GPT-4o, GPT-o1-preview) показали в середньому 36,14% CR та SR 0,82 на акціях, що стабільно вище стратегії «купити та утримувати», але не суттєво. Їхня більша перевага помітна в криптовалюті, де вони досягли 23,60% CR для BTC проти 21,82% у «купити та утримувати», тоді як моделі з відкритим кодом показали в середньому 14,14%.
  • Бенчмарк є відкритим і включає інструменти для оцінки — це практично корисний внесок, враховуючи, наскільки важко відтворити експерименти з торгівлі.

Що витримує критику, а що ні

Багаторівнева архітектура пам'яті є найбільш обґрунтованим дизайнерським рішенням у статті, а емпіричний висновок про те, що вона перевершує пошук лише за схожістю, є правдоподібним і корисним. Кореляція між розміром та продуктивністю також є чітким результатом.

Основним недоліком є те, що тестові періоди — це короткі історичні бектести, а не торгівля в реальному часі. Період акцій (жовтень 2020 – травень 2021) збігається з одним із найбільш незвичайних «бичачих» ринків в історії: стимулювання після COVID, божевілля навколо мем-акцій та майже нульові ставки сприяли загальному зростанню капіталу. Стратегія «купити та утримувати» принесла 34,10% приблизно за сім місяців на кошику з семи акцій. Чи відображають покращення агентів LLM понад це число справжню альфу, чи просто більш агресивне відкриття позицій на зростаючому ринку, неможливо визначити з наданих даних. Аналогічно, період ETF охоплює крах через COVID та відновлення — режим настільки аномальний, що будь-яка модель, яка випадково перейшла в оборону в березні 2020 року, виглядала б пророчою.

Аномалія Palmyra-Fin-70B — катастрофічні результати на акціях, сильні на ETF — не пояснена задовільно. Якщо доменне донавчання переорієнтовує модель на довші часові горизонти, це мало б проявитися і в результатах по акціях. Той факт, що цього не сталося, свідчить про те, що результат може бути випадковим шумом у короткому вікні бектестування, а не принциповою знахідкою.

Також відсутнє порівняння з традиційними алгоритмічними базами (моментум, повернення до середнього, факторні моделі). Використання лише «купити та утримувати» як пасивного орієнтира встановлює низьку планку. Якщо просте перетинання ковзних середніх б'є «купити та утримувати» в ці періоди — що часто трапляється на трендових ринках — порівняння з агентом виглядає набагато менш вражаючим.

Нарешті, бенчмарк тестує рішення лише щодо одного активу. Справжнє управління портфелем вимагає корельованого розрахунку розміру позицій, ребалансування та агрегації ризиків, чого завдання з одним активом не охоплюють.

Чому це важливо для ШІ у фінансах

Багаторівнева архітектура пам'яті безпосередньо переноситься на Beancount. Агенту облікової книги потрібно одночасно міркувати в різних часових масштабах: що сталося під час сьогоднішнього імпорту (поверхневий рівень), що квартал транзакцій говорить про бюджет (проміжний) і що багаторічні патерни кажуть про стан рахунків (глибокий). Поділ на 14/90/365 днів від InvestorBench дає конкретний шаблон дизайну, який варто запозичити, навіть якщо контекст торгівлі відрізняється від бухгалтерії.

Знахідка щодо Palmyra-Fin-70B також містить попередження для спроб донавчання Beancount. Модель, інтенсивно навчена на фінансових текстах, не стає автоматично кращою у прийнятті рішень агентом — розрив між вільним володінням фінансовою мовою та компетентністю у фінансовому мисленні реальний. Якщо Bean Labs коли-небудь донавчатиме модель на синтаксисі Beancount та правилах обліку, оцінка агента повинна перевіряти якість рішень, а не лише формат виводу.

Відсутність у бенчмарку оцінки безпеки запису — це чітка прогалина, яку варто заповнити Bean Labs. Агенти InvestorBench можуть лише втратити гроші; агенти Beancount можуть пошкодити облікову книгу. Фреймворк оцінки потребує виміру незворотності, який торговим бенчмаркам просто не потрібен.

Що прочитати далі

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu та ін., arXiv:2311.07743) — архітектура багаторівневої пам'яті, яку розширює InvestorBench; читання оригіналу прояснює, що саме додав InvestorBench.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — досліджує багатоагентну торгівлю на основі дебатів, що є прямим контрастом до результатів з одним агентом.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — за повідомленнями, оцінює агентів на перспективних даних ринку в реальному часі, а не на історичних бектестах; розглядає проблему помилки виживання, яку я згадував вище.