4 Posts getaggt mit „Decision-making“

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

ReDAct führt standardmäßig ein kleines Modell aus und eskaliert nur dann zu einem teuren Modell, wenn die Perplexität auf Token-Ebene Unsicherheit signalisiert. Dabei werden 64 % Kosten gegenüber einer reinen GPT-5.2-Nutzung eingespart, bei gleichbleibender oder höherer Genauigkeit – ein direkt anwendbares Muster für Beancount-Transaktionskategorisierungs-Agenten.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework

LATS (Language Agent Tree Search, ICML 2024) vereint ReAct, Tree of Thoughts und Reflexion in einem einzigen MCTS-Framework und erreicht mit GPT-4 einen Pass@1 von 92,7 % bei HumanEval. Für Git-basierte Beancount-Hauptbücher ist die Anforderung der Zustandsrückführung, die LATS in Produktionsumgebungen einschränkt, trivial erfüllt.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Tree of Thoughts: Bewusste Problemlösung mit LLM-Suche

Tree of Thoughts (ToT) erreicht 74 % im Game of 24 gegenüber 4 % bei Standard-GPT-4-CoT, indem LLM-Argumentation in einem verzweigten Suchbaum mit Pruning und Backtracking organisiert wird – mit direkten Auswirkungen auf mehrstufige Finanzklassifizierung und Steueroptimierung in Beancount-Workflows.

Alles Über Decision-making

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

LATS: Language Agent Tree Search — Schlussfolgern, Handeln und Planen in einem Framework

Tree of Thoughts: Bewusste Problemlösung mit LLM-Suche

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches