ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.
InvestorBench (ACL 2025) test 13 LLM-backbones op gebackteste aandelen-, crypto- en ETF-handel met behulp van cumulatief rendement en Sharpe-ratio — niet op QA-nauwkeurigheid. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR; voor financiën geoptimaliseerde modellen werken averechts bij aandelen. Modelgrootte voorspelt prestaties betrouwbaarder dan domeinspecifieke fine-tuning.
LATS (Language Agent Tree Search, ICML 2024) verenigt ReAct, Tree of Thoughts en Reflexion in één MCTS-framework, en behaalt een pass@1 van 92,7% op HumanEval met GPT-4. Voor Beancount-grootboeken met Git-beheer wordt de vereiste voor status-reversie, die LATS in productieomgevingen beperkt, triviaal vervuld.
Tree of Thoughts (ToT) behaalt 74% op Game of 24 tegenover 4% voor standaard GPT-4 CoT door LLM-redeneringen te organiseren in een vertakkende zoekboom met pruning en backtracking — met directe implicaties voor meerstaps financiële classificatie en belastingoptimalisatie in Beancount-workflows.