InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen
Die meisten KI-Benchmarks im Finanzwesen testen, ob LLMs Fragen zu Finanzdaten beantworten können. InvestorBench stellt eine schwierigere Frage: Kann ein LLM-Agent Geld verdienen? Es ist der erste Benchmark, den ich gesehen habe, der 13 verschiedene Backbone-Modelle durch tatsächliche (backtested) Handelsaufgaben bei Aktien, Kryptowährungen und ETFs schickt und dabei die kumulierte Rendite und die Sharpe-Ratio anstelle der QA-Genauigkeit misst. Dieser Wechsel vom Verständnis zur Entscheidungsfindung ist der richtige Rahmen für Bean Labs.
Das Paper
InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) führt einen Benchmark und ein dazugehöriges Agent-Framework zur Bewertung von LLMs im Finanzhandel ein. Die Agentenarchitektur ist modular aufgebaut – ein Brain (das LLM-Backbone), eine Perception-Schicht, die Marktdaten in Text umwandelt, und ein geschichtetes Memory-System mit drei Zerfallsfenstern: 14 Tage für tägliche Nachrichten, 90 Tage für Quartalsberichte und 365 Tage für Jahresberichte. Zum Zeitpunkt der Entscheidung ruft der Agent Informationen aus allen drei Schichten ab und entscheidet logisch zwischen Kaufen, Verkaufen oder Halten.
Der Benchmark deckt drei Aufgabenfamilien für Einzelwerte ab. Der Aktienhandel nutzt sieben Titel (MSFT, JNJ, TSLA, AAPL usw.), die von Oktober 2020 bis Mai 2021 getestet wurden. Krypto deckt Bitcoin und Ethereum von April bis November 2023 ab. Der ETF-Handel nutzt den NIFTY-Datensatz von Januar bis September 2020. Jede Aufgabe bietet OHLCV-Daten, Nachrichtenartikel mit Sentiment-Labels sowie SEC-Filings oder Äquivalente. Die primären Metriken sind die kumulierte Rendite (CR) und die Sharpe-Ratio (SR).
Kernideen
- Das gestufte Speicherdesign (14/90/365-Tage-Zerfallsfenster) spiegelt wider, wie professionelle Analysten Informationen tatsächlich behandeln: Tägliche Preisbewegungen, Quartalsergebnisse und der jährliche strategische Kontext haben unterschiedliche zeitliche Gewichtungen.
- Die Modellgröße ist der stärkste Prädiktor für die Performance. Open-Source-Modelle mit mehr als 67 Mrd. Parametern erreichen bei Aktien-CR und SR das Niveau proprietärer Modelle, während kleinere Modelle deutlich zurückbleiben. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR und einer SR von 1,276 an, verglichen mit einer Buy-and-Hold-Baseline von 34,10 % CR / 0,732 SR.
- Domänenspezifisches Fine-Tuning erweist sich bei Aktien als kontraproduktiv. Palmyra-Fin-70B – ein auf Finanzen vortrainiertes Modell – erreichte beim Aktienhandel durchschnittlich −0,45 % CR und eine SR von 0,031, was schlechter war als jedes andere getestete Allzweckmodell. Palmyra-Fin-70B schnitt bei ETFs gut ab (24,76 % CR, 1,152 SR), was die Autoren darauf zurückführen, dass ETF-Aufgaben längerfristiges Denken erfordern, das besser mit seinem Training übereinstimmt.
- Proprietäre Modelle (GPT-4, GPT-4o, GPT-o1-preview) erreichten bei Aktien durchschnittlich 36,14 % CR und eine SR von 0,82, was zuverlässig über Buy-and-Hold lag, aber nicht dramatisch. Ihr größerer Vorsprung zeigt sich bei Krypto, wo sie 23,60 % BTC-CR erreichten, gegenüber 21,82 % bei Buy-and-Hold, während Open-Source-Modelle durchschnittlich 14,14 % erreichten.
- Der Benchmark ist Open-Source und enthält Evaluierungstools – ein praktisch nützlicher Beitrag, wenn man bedenkt, wie schwer es ist, Handelsexperimente zu reproduzieren.
Was Bestand hat – und was nicht
Die geschichtete Speicherarchitektur ist die fundierteste Designentscheidung im Paper, und die empirische Erkenntnis, dass sie eine rein auf Ähnlichkeit basierende Suche (Retrieval) übertrifft, ist plausibel und nützlich. Auch die Korrelation zwischen Größe und Performance ist ein eindeutiges Ergebnis.
Die Hauptschwäche besteht darin, dass die Testzeiträume kurze historische Backtests sind und kein Live-Handel. Der Aktienzeitraum (Oktober 2020 – Mai 2021) fällt mit einem der ungewöhnlichsten Bullenmärkte der Geschichte zusammen: Post-COVID-Stimuli, Meme-Stock-Hype und Zinsen nahe Null trieben die Aktienkurse breitflächig nach oben. Buy-and-Hold erzielte in etwa sieben Monaten mit einem Korb aus sieben Aktien 34,10 %. Ob die Verbesserungen der LLM-Agenten gegenüber dieser Zahl echtes Alpha widerspiegeln oder nur eine aggressivere Positionsaufnahme in einem steigenden Markt darstellen, lässt sich aus den vorliegenden Daten nicht bestimmen. Ähnlich verhält es sich mit dem ETF-Zeitraum, der den COVID-Crash und die Erholung umfasst – ein so abnormales Regime, dass jedes Modell, das im März 2020 zufällig defensiv agierte, vorausschauend gewirkt hätte.
Die Palmyra-Fin-70B-Anomalie – katastrophal bei Aktien, stark bei ETFs – wird nicht zufriedenstellend erklärt. Wenn domänenspezifisches Fine-Tuning ein Modell auf längere Zeithorizonte ausrichtet, sollte sich das auch in den Aktienergebnissen zeigen. Dass dies nicht der Fall ist, deutet darauf hin, dass das Ergebnis eher Rauschen in einem kurzen Backtesting-Fenster als eine grundlegende Erkenntnis sein könnte.
Es fehlt zudem ein Vergleich mit traditionellen algorithmischen Baselines (Momentum, Mean-Reversion, Faktormodelle). Nur Buy-and-Hold als passive Baseline zu verwenden, setzt die Messlatte niedrig. Wenn ein einfacher Moving-Average-Crossover in diesen Zeiträumen Buy-and-Hold schlägt – was in Trendmärkten oft der Fall ist –, wirkt der Vergleich mit den Agenten viel weniger beeindruckend.
Schließlich testet der Benchmark nur Entscheidungen für Einzelwerte. Echtes Portfoliomanagement erfordert korrelierte Positionsgrößenbestimmung, Rebalancing und Risikoaggregation, was Aufgaben mit Einzelwerten nicht erfassen.
Warum das für Finanz-KI wichtig ist
Die gestufte Speicherarchitektur lässt sich direkt auf Beancount übertragen. Ein Ledger-Agent muss gleichzeitig auf verschiedenen zeitlichen Skalen argumentieren: Was geschah in der heutigen Import-Sitzung (flach), was verrät ein Quartal voller Transaktionen über ein Budget (mittelfristig) und was sagen mehrjährige Muster über die Kontogesundheit aus (tief). Die 14/90/365-Tage-Schichtung von InvestorBench bietet eine konkrete Designvorlage, die es wert ist, übernommen zu werden, auch wenn sich der Handelskontext von der Buchhaltung unterscheidet.
Die Erkenntnisse zu Palmyra-Fin-70B enthalten auch eine Warnung für Fine-Tuning-Bemühungen bei Beancount. Ein Modell, das intensiv mit Finanztexten trainiert wurde, trifft nicht automatisch bessere Agenten-Entscheidungen – die Lücke zwischen finanzsprachlicher Gewandtheit und finanzieller Argumentationskompetenz ist real. Falls Bean Labs jemals ein Modell auf Beancount-Syntax und Buchhaltungsregeln feinabstimmt, muss die Agenten-Evaluierung die Qualität der Entscheidungen testen, nicht nur das Ausgabeformat.
Das Fehlen einer Sicherheitsbewertung für Schreibvorgänge im Benchmark ist eine klare Lücke, die Bean Labs füllen kann. InvestorBench-Agenten können nur Geld verlieren; Beancount-Agenten können ein Hauptbuch korrumpieren. Das Evaluierungs-Framework benötigt eine Dimension für Irreversibilität, die Handels-Benchmarks normalerweise nicht berücksichtigen müssen.
Was man als Nächstes lesen sollte
- FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) – die geschichtete Speicherarchitektur, die InvestorBench erweitert; das Lesen des ursprünglichen Designs verdeutlicht, was InvestorBench tatsächlich hinzufügt.
- TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) – untersucht debattenbasierte Multi-Agenten-Handelssysteme, ein direkter Kontrast zu dem Einzelagenten-Ergebnis aus dem Protokoll der letzten Woche.
- StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) – evaluiert Agenten angeblich auf zukunftsgerichteten Live-Marktdaten statt auf historischen Backtests; adressiert die Bedenken hinsichtlich des Survivorship Bias, die ich hier geäußert habe.
