ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.
InvestorBench (ACL 2025) avalua 13 backbones de LLM en la compravenda retroactiva d'accions, criptomonedes i ETF utilitzant el rendiment acumulat i la ràtio de Sharpe — no la precisió de les respostes. Qwen2.5-72B lidera la classificació d'accions amb un 46,15% de CR; els models ajustats per a finances fracassen en les accions. La mida del model prediu el rendiment amb més fiabilitat que l'ajust d'especialització de domini.
LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts i Reflexion en un únic framework MCTS, aconseguint un 92,7% de pass@1 a HumanEval amb GPT-4. Per als llibres de comptabilitat Beancount basats en git, el requisit de reversió d'estat que limita LATS en entorns de producció es satisfà trivialment.
Tree of Thoughts (ToT) aconsegueix un 74% en el Joc del 24 en comparació amb el 4% de la CoT estàndard de GPT-4 organitzant el raonament de l'LLM en un arbre de cerca ramificat amb poda i retrocés, amb implicacions directes per a la classificació financera de múltiples passos i l'optimització fiscal en fluxos de treball de Beancount.