Zum Hauptinhalt springen

Bean Labs Research Log

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.

Latest articles

StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte

StructRAG (ICLR 2025) leitet jede Abfrage an einen aufgabengerechten Strukturtyp weiter – Tabelle, Graph, Katalog, Algorithmus oder Chunk – bevor die Argumentation erfolgt. Dabei erzielt es im Loong-Benchmark 28 Punkte mehr als GraphRAG bei 22-facher Geschwindigkeit, wobei allein der DPO-trainierte Router für einen Genauigkeitsgewinn von 15 Punkten sorgt.

Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget

Ein Stanford-Preprint aus dem Jahr 2026 gleicht die Thinking-Token-Budgets über fünf Multi-Agenten-Architekturen hinweg an und stellt fest, dass Single-Agent-LLMs bei Multi-Hop-Reasoning-Aufgaben mit Multi-Agenten-Systemen gleichziehen oder diese übertreffen – mit theoretischer Fundierung in der Datenverarbeitungsungleichung und Auswirkungen auf das Design von KI-Finanzagenten.

M3MAD-Bench: Sind Multi-Agenten-Debatten über Domänen und Modalitäten hinweg wirklich effektiv?

M3MAD-Bench unterzieht Multi-Agenten-Debatten einem Stresstest über 9 Modelle, 5 Domänen und Vision-Language-Szenarien hinweg. Die Studie zeigt, dass kollektive Täuschung 65 % der Fehler verursacht, adversative Debatten die Genauigkeit um bis zu 12,8 % senken und Self-Consistency die Debattengenauigkeit meist bei geringeren Token-Kosten erreicht.

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.

Atlas: Gemeinsames Retriever-Reader-Pre-Training schlägt LLMs mit 540 Mrd. Parametern mit nur 11 Mrd. Parametern

Atlas (JMLR 2023) erreicht eine Genauigkeit von 42,4 % bei Natural Questions mit nur 64 Trainingsbeispielen – und schlägt damit PaLM 540B um 3 Punkte bei Verwendung von nur 11 Mrd. Parametern – durch gemeinsames Pre-Training eines Contriever-basierten Dense Retrievers mit einem T5 Fusion-in-Decoder Reader. Die Analyse umfasst die Grenzen der Retrieval-Genauigkeit, Infrastrukturkosten für einen 587-GB-Index und Auswirkungen auf Beancount-Ledger-QA-Systeme.

Fusion-in-Decoder: Wie Multi-Passage-Retrieval das generative QA verbessert

Izacards und Graves FiD-Architektur kodiert abgerufene Passagen unabhängig voneinander und führt sie dann im Decoder zusammen. Sie übertrifft RAG-Sequence bei NQ und TriviaQA um 4–11 Punkte. Dieser Beitrag untersucht das Design und seine Auswirkungen auf die Beancount-Ledger-Fragenbeantwortung, bei der die Synthese mehrerer Einträge über verschiedene Transaktionen hinweg die Norm ist.

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

Multiagent-LLM-Debatte: Echte Genauigkeitsgewinne, unkontrollierte Rechenleistung und kollektive Täuschung

Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.