InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen
De meeste AI-benchmarks voor de financiële sector testen of LLM's vragen over financiële gegevens kunnen beantwoorden. InvestorBench stelt een moeilijkere vraag: kan een LLM-agent geld verdienen? Het is de eerste benchmark die ik heb gezien die 13 verschillende backbonemodellen onderwerpt aan daadwerkelijke (gebackteste) handelstaken in aandelen, crypto en ETF's, waarbij het cumulatief rendement en de Sharpe-ratio worden gemeten in plaats van QA-nauwkeurigheid. Die verschuiving van begrip naar besluitvorming is het juiste kader voor Bean Labs.
Het artikel
InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) introduceert een benchmark en bijbehorend agent-framework voor het evalueren van LLM's op financiële handel. De agent-architectuur is modulair — een Brain (de LLM-backbone), een Perception-laag die marktgegevens omzet in tekst, en een gelaagd Memory-systeem met drie vervalvensters: 14 dagen voor dagelijks nieuws, 90 dagen voor kwartaalverslagen en 365 dagen voor jaarstukken. Op het moment van besluitvorming haalt de agent informatie op uit alle drie de lagen en redeneert naar een koop-/verkoop-/houd-actie.
De benchmark beslaat drie families van taken met één enkel activum. Aandelenhandel gebruikt zeven aandelen (MSFT, JNJ, TSLA, AAPL, etc.) getest van oktober 2020 tot en met mei 2021. Crypto omvat Bitcoin en Ethereum van april tot en met november 2023. ETF-handel gebruikt de NIFTY-dataset van januari tot en met september 2020. Elke taak biedt OHLCV-gegevens, nieuwsartikelen met sentiment-labels en SEC-deponeringen of equivalenten. De primaire statistieken zijn cumulatief rendement (CR) en Sharpe-ratio (SR).
Belangrijke ideeën
- Het gelaagde geheugenontwerp (vervalvensters van 14/90/365 dagen) weerspiegelt hoe professionele analisten daadwerkelijk met informatie omgaan: dagelijkse prijsactie, kwartaalcijfers en de jaarlijkse strategische context dragen verschillende temporele wegingen.
- Modelgrootte is de sterkste voorspeller van prestaties. Open-source modellen met meer dan 67 miljard parameters evenaren propriëtaire modellen op het gebied van aandelen-CR en SR, terwijl kleinere modellen aanzienlijk achterblijven. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR en een SR van 1,276, tegenover een buy-and-hold benchmark van 34,10% CR / 0,732 SR.
- Domeinspecifieke fine-tuning werkt averechts bij aandelen. Palmyra-Fin-70B — een op financiën getraind model — behaalde gemiddeld −0,45% CR en een SR van 0,031 bij aandelenhandel, slechter dan elk ander getest algemeen model. Palmyra-Fin-70B presteerde wel goed op ETF's (24,76% CR, 1,152 SR), wat de auteurs toeschrijven aan het feit dat ETF-taken redeneren over een langere horizon vereisen die beter aansluit bij de training.
- Propriëtaire modellen (GPT-4, GPT-4o, GPT-o1-preview) behaalden gemiddeld 36,14% CR en een SR van 0,82 op aandelen, betrouwbaar boven buy-and-hold maar niet spectaculair. Hun grootste voordeel bleek in crypto, waar ze 23,60% BTC CR behaalden tegenover 21,82% voor buy-and-hold, terwijl open-source modellen gemiddeld op 14,14% uitkwamen.
- De benchmark is open-source en bevat tools voor evaluatie — een praktisch nuttige bijdrage gezien hoe moeilijk het is om handelsexperimenten te reproduceren.
Wat houdt stand — en wat niet
De gelaagde geheugenarchitectuur is de meest principiële ontwerpkeuze in het artikel, en de empirische bevinding dat dit beter presteert dan puur op gelijkenis gebaseerde ophaalmethoden (retrieval) is aannemelijk en nuttig. De correlatie tussen grootte en prestaties is eveneens een helder resultaat.
De belangrijkste zwakte is dat de testperiodes korte historische backtests zijn, geen live handel. De aandelenperiode (oktober 2020 – mei 2021) valt samen met een van de meest ongebruikelijke bullmarkten ooit: post-COVID stimulans, de meme-stock gekte en bijna-nulrentes dreven een brede waardestijging van aandelen aan. Buy-and-hold leverde 34,10% op in ongeveer zeven maanden voor een mandje van zeven aandelen. Of de verbeteringen van LLM-agenten bovenop dat cijfer een echte alfa weerspiegelen of alleen agressievere positie-inname in een stijgende markt, kan op basis van de gegeven gegevens niet worden vastgesteld. Evenzo beslaat de ETF-periode de COVID-crash en het herstel — een regime dat zo abnormaal is dat elk model dat toevallig defensief werd in maart 2020, visionair zou lijken.
De anomalie van Palmyra-Fin-70B — catastrofaal bij aandelen, sterk bij ETF's — wordt niet bevredigend verklaard. Als domeinspecifieke fine-tuning een model heroriënteert naar langere tijdshorizons, zou dat ook in de aandelenresultaten naar voren moeten komen. Het feit dat dit niet gebeurt, suggereert dat het resultaat eerder ruis kan zijn in een kort backtest-venster dan een principieel inzicht.
Er is ook geen vergelijking met traditionele algoritmische benchmarks (momentum, mean-reversion, factormodellen). Het gebruik van alleen buy-and-hold als passieve benchmark legt de lat laag. Als een eenvoudige voortschrijdend-gemiddelde crossover buy-and-hold verslaat in deze periodes — wat vaak gebeurt in trendgevoelige markten — ziet de vergelijking met de agent er veel minder indrukwekkend uit.
Ten slotte test de benchmark alleen beslissingen voor afzonderlijke activa. Echt portefeuillebeheer vereist gecorreleerde positiebepaling, herbalancering en risico-aggregatie die taken met één enkel activum niet vangen.
Waarom dit belangrijk is voor AI in de financiële sector
De gelaagde geheugenarchitectuur is direct te vertalen naar Beancount. Een grootboekagent moet gelijktijdig op verschillende temporele schalen kunnen redeneren: wat er gebeurde in de importsessie van vandaag (oppervlakkig), wat een kwartaal aan transacties onthult over een budget (tussenliggend), en wat patronen over meerdere jaren zeggen over de gezondheid van rekeningen (diep). De 14/90/365-daagse gelaagdheid van InvestorBench biedt een concreet ontwerpsjabloon dat de moeite waard is om te lenen, zelfs als de handelscontext verschilt van boekhouden.
De bevinding rond Palmyra-Fin-70B bevat ook een waarschuwing voor fine-tuning inspanningen binnen Beancount. Een model dat uitgebreid is getraind op financiële tekst neemt niet automatisch betere beslissingen als agent — de kloof tussen financiële taalvaardigheid en financiële redeneercompetentie is reëel. Als Bean Labs ooit een model fine-tunt op Beancount-syntaxis en boekhoudregels, moet de evaluatie van de agent de kwaliteit van de besluitvorming testen, en niet alleen het uitvoerformaat.
Het ontbreken van een evaluatie van terugschrijfveiligheid (write-back safety) in de benchmark is een duidelijke leemte die Bean Labs kan opvullen. InvestorBench-agenten kunnen alleen geld verliezen; Beancount-agenten kunnen een grootboek corrumperen. Het evaluatiekader heeft een dimensie van onomkeerbaarheid nodig die handelsbenchmarks geen reden hebben om op te nemen.
Wat nu te lezen
- FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — de gelaagde geheugenarchitectuur die InvestorBench uitbreidt; het lezen van het originele ontwerp verduidelijkt wat InvestorBench daadwerkelijk toevoegt.
- TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — verkent op debat gebaseerde multi-agent handel, een direct contrast met het single-agent resultaat van het logboek van vorige week.
- StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — evalueert naar verluidt agenten op toekomstgerichte live marktgegevens in plaats van historische backtests; behandelt de zorg over survivorship bias die ik hier uitte.
