4 berichten getagd met "Decision-making"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

InvestorBench (ACL 2025) test 13 LLM-backbones op gebackteste aandelen-, crypto- en ETF-handel met behulp van cumulatief rendement en Sharpe-ratio — niet op QA-nauwkeurigheid. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR; voor financiën geoptimaliseerde modellen werken averechts bij aandelen. Modelgrootte voorspelt prestaties betrouwbaarder dan domeinspecifieke fine-tuning.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Redeneren, Handelen en Plannen in Eén Framework

LATS (Language Agent Tree Search, ICML 2024) verenigt ReAct, Tree of Thoughts en Reflexion in één MCTS-framework, en behaalt een pass@1 van 92,7% op HumanEval met GPT-4. Voor Beancount-grootboeken met Git-beheer wordt de vereiste voor status-reversie, die LATS in productieomgevingen beperkt, triviaal vervuld.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen

Tree of Thoughts (ToT) behaalt 74% op Game of 24 tegenover 4% voor standaard GPT-4 CoT door LLM-redeneringen te organiseren in een vertakkende zoekboom met pruning en backtracking — met directe implicaties voor meerstaps financiële classificatie en belastingoptimalisatie in Beancount-workflows.

Alles Over Decision-making

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

LATS: Language Agent Tree Search — Redeneren, Handelen en Plannen in Eén Framework

Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch