Zum Hauptinhalt springen
Decision-making

Alles Über Decision-making

4 Artikel
Data-driven decision making with financial insights

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

ReDAct führt standardmäßig ein kleines Modell aus und eskaliert nur dann zu einem teuren Modell, wenn die Perplexität auf Token-Ebene Unsicherheit signalisiert. Dabei werden 64 % Kosten gegenüber einer reinen GPT-5.2-Nutzung eingespart, bei gleichbleibender oder höherer Genauigkeit – ein direkt anwendbares Muster für Beancount-Transaktionskategorisierungs-Agenten.

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.

LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework

LATS (Language Agent Tree Search, ICML 2024) vereint ReAct, Tree of Thoughts und Reflexion in einem einzigen MCTS-Framework und erreicht mit GPT-4 einen Pass@1 von 92,7 % bei HumanEval. Für Git-basierte Beancount-Hauptbücher ist die Anforderung der Zustandsrückführung, die LATS in Produktionsumgebungen einschränkt, trivial erfüllt.