InvestorBench: Benchmarking LLM agentov pri rozhodovaní o finančnom obchodovaní
Väčšina AI benchmarkov vo financiách testuje, či LLM dokážu odpovedať na otázky o finančných údajoch. InvestorBench kladie ťažšiu otázku: dokáže LLM agent zarábať peniaze? Je to prvý benchmark, ktorý som videl, a ktorý podrobuje 13 rôznych základných modelov (backbone) skutočným (spätne testovaným) obchodným úlohám naprieč akciami, kryptomenami a ETF, pričom meria kumulatívny výnos a Sharpeho pomer namiesto presnosti QA. Tento posun od porozumenia k rozhodovaniu je ten správny rámec pre Bean Labs.
Článok
InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) predstavuje benchmark a sprievodný rámec pre agentov na vyhodnocovanie LLM pri finančnom obchodovaní. Architektúra agenta je modulárna – Mozog (základný LLM model), vrstva Percepcie, ktorá premieňa trhové dáta na text, a vrstvený systém Pamäte s tromi oknami útlmu: 14 dní pre denné správy, 90 dní pre štvrťročné správy a 365 dní pre výročné správy. V čase rozhodovania agent vyhľadáva informácie vo všetkých troch vrstvách a smeruje k akcii kúpiť/predať/držať.
Benchmark pokrýva tri rodiny úloh s jedným aktívom. Obchodovanie s akciami využíva sedem titulov (MSFT, JNJ, TSLA, AAPL atď.) testovaných od októbra 2020 do mája 2021. Kryptomeny zahŕňajú Bitcoin a Ethereum od apríla do novembra 2023. Obchodovanie s ETF využíva súbor údajov NIFTY od januára do septembra 2020. Každá úloha poskytuje údaje OHLCV, spravodajské články s označením sentimentu a podania pre SEC alebo ich ekvivalenty. Primárnymi metrikami sú kumulatívny výnos (CR) a Sharpeho pomer (SR).
Kľúčové myšlienky
- Dizajn stupňovitej pamäte (okná útlmu 14/90/365 dní) odzrkadľuje, ako profesionálni analytici v skutočnosti narábajú s informáciami: denný pohyb cien, štvrťročné zisky a ročný strategický kontext majú rôznu časovú váhu.
- Veľkosť modelu je najsilnejším prediktorom výkonu. Open-source modely nad 67 miliárd parametrov sa vyrovnajú proprietárnym modelom v CR a SR pri akciách, zatiaľ čo menšie modely výrazne zaostávajú. Qwen2.5-72B vedie rebríček akcií s 46,15 % CR a SR 1,276 v porovnaní s bázou „kúp a drž“ (buy-and-hold) s 34,10 % CR / 0,732 SR.
- Jemné doladenie špecifické pre doménu sa pri akciách obracia proti modelu. Palmyra-Fin-70B — model predtrénovaný na financie — dosiahol priemerný CR −0,45 % a SR 0,031 pri obchodovaní s akciami, čo bolo horšie ako každý testovaný model na všeobecné účely. Palmyra-Fin-70B si viedla dobre pri ETF (24,76 % CR, 1,152 SR), čo autori pripisujú úlohám ETF vyžadujúcim uvažovanie v dlhšom horizonte v súlade s jeho tréningom.
- Proprietárne modely (GPT-4, GPT-4o, GPT-o1-preview) dosiahli pri akciách priemerne 36,14 % CR a SR 0,82, čo je spoľahlivo nad úrovňou „kúp a drž“, ale nie dramaticky. Ich väčší náskok sa prejavuje v kryptomenách, kde dosiahli 23,60 % BTC CR oproti 21,82 % pri „kúp a drž“, zatiaľ čo open-source modely dosiahli priemerne 14,14 %.
- Benchmark je open-source a zahŕňa nástroje na vyhodnocovanie — prakticky užitočný prínos vzhľadom na to, aké ťažké je reprodukovať obchodné experimenty.
Čo obstojí — a čo nie
Vrstvová architektúra pamäte je najzásadnejším konštrukčným rozhodnutím v článku a empirické zistenie, že prekonáva vyhľadávanie založené čisto na podobnosti, je uveriteľné a užitočné. Korelácia medzi veľkosťou a výkonom je tiež jasným výsledkom.
Hlavnou slabinou je, že testovacie obdobia sú krátke historické spätné testy, nie živé obchodovanie. Obdobie akcií (október 2020 – máj 2021) sa zhoduje s jedným z najneobvyklejších býčích trhov v histórii: stimuly po COVID-e, šialenstvo okolo meme akcií a takmer nulové sadzby poháňali plošné zhodnocovanie akcií. Stratégia „kúp a drž“ zarobila 34,10 % za približne sedem mesiacov na koši siedmich akcií. Či zlepšenia LLM agentov nad toto číslo odrážajú skutočnú alfu alebo len agresívnejšie zaujímanie pozícií na rastúcom trhu, nemožno z poskytnutých údajov určiť. Podobne obdobie ETF zahŕňa krach a zotavenie po COVID-e — režim tak nenormálny, že akýkoľvek model, ktorý sa v marci 2020 zachoval defenzívne, by vyzeral ako vizionársky.
Anomália Palmyra-Fin-70B — katastrofálna pri akciách, silná pri ETF — nie je uspokojivo vysvetlená. Ak doménové jemné doladenie preorientuje model na dlhšie časové horizonty, malo by sa to prejaviť aj vo výsledkoch akcií. Skutočnosť, že sa tak nestalo, naznačuje, že výsledok môže byť skôr šumom v krátkom okne spätného testovania než zásadným zistením.
Chýba tiež porovnanie s tradičnými algoritmickými základmi (momentum, návrat k priemeru, faktorové modely). Použitie iba „kúp a drž“ ako pasívnej bázy nastavuje nízku latku. Ak jednoduché prekročenie kĺzavého priemeru porazí v týchto obdobiach stratégiu „kúp a drž“ — čo sa na trendových trhoch často stáva — porovnanie agentov vyzerá oveľa menej pôsobivo.
Napokon, benchmark testuje len rozhodnutia o jednom aktíve. Skutočná správa portfólia vyžaduje korelovanú veľkosť pozícií, rebalansovanie a agregáciu rizík, ktoré úlohy s jedným aktívom nezachytávajú.
Prečo je to dôležité pre AI vo financiách
Architektúra stupňovitej pamäte sa priamo prenáša do Beancountu. Agent účtovnej knihy potrebuje uvažovať v rôznych časových mierkach súčasne: čo sa stalo v dnešnej importnej relácii (plytká úroveň), čo prezrádza štvrťrok transakcií o rozpočte (stredná úroveň) a čo hovoria viacročné vzorce o zdraví účtov (hlboká úroveň). Vrstvenie 14/90/365 dní v InvestorBench poskytuje konkrétnu dizajnovú šablónu, ktorú stojí za to si vypožičať, aj keď sa kontext obchodovania líši od účtovníctva.
Zistenie o Palmyra-Fin-70B nesie varovanie aj pre snahy o jemné doladenie Beancountu. Model intenzívne trénovaný na finančných textoch automaticky nerobí lepšie rozhodnutia agenta — priepasť medzi plynulosťou finančného jazyka a schopnosťou finančného uvažovania je skutočná. Ak Bean Labs niekedy doladí model na syntax a účtovné pravidlá Beancountu, vyhodnotenie agenta musí testovať kvalitu rozhodovania, nielen formát výstupu.
Absencia vyhodnotenia bezpečnosti spätného zápisu v benchmarku je jasnou medzerou, ktorú môže Bean Labs vyplniť. Agenti InvestorBench môžu prísť iba o peniaze; agenti Beancountu môžu poškodiť účtovnú knihu. Rámec vyhodnocovania potrebuje dimenziu nezvratnosti, ktorú obchodné benchmarky nemajú dôvod zahŕňať.
Čo si prečítať ďalej
- FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — architektúra vrstvenej pamäte, ktorú InvestorBench rozširuje; prečítanie pôvodného návrhu objasňuje, čo InvestorBench v skutočnosti pridáva.
- TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — skúma obchodovanie s viacerými agentmi na báze diskusie, čo je priamy kontrast k výsledku jedného agenta z logu z minulého týždňa.
- StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — údajne vyhodnocuje agentov na budúcich trhových dátach v reálnom čase namiesto historických spätných testov; rieši obavy zo skreslenia prežitia (survivorship bias), ktoré som tu uviedol.
