Doorgaan naar hoofdinhoud
Decision-making

Alles Over Decision-making

4 artikelen
Data-driven decision making with financial insights

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

InvestorBench (ACL 2025) test 13 LLM-backbones op gebackteste aandelen-, crypto- en ETF-handel met behulp van cumulatief rendement en Sharpe-ratio — niet op QA-nauwkeurigheid. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR; voor financiën geoptimaliseerde modellen werken averechts bij aandelen. Modelgrootte voorspelt prestaties betrouwbaarder dan domeinspecifieke fine-tuning.