O ReDAct executa um modelo pequeno por padrão e escala para um modelo caro apenas quando a perplexidade em nível de token sinaliza incerteza, alcançando 64% de economia de custos em relação ao uso apenas do GPT-5.2, mantendo ou superando sua precisão — um padrão diretamente aplicável para agentes de categorização de transações no Beancount.
O InvestorBench (ACL 2025) testa 13 backbones de LLM em negociações retroativas (backtested) de ações, cripto e ETFs usando retorno acumulado e índice de Sharpe — não precisão de QA. O Qwen2.5-72B lidera o ranking de ações com 46,15% de CR; modelos ajustados para finanças falham em ações. O tamanho do modelo prevê o desempenho de forma mais confiável do que o ajuste fino de domínio.
O LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts e Reflexion em um único framework MCTS, alcançando 92,7% de pass@1 no HumanEval com GPT-4. Para livros contábeis do Beancount baseados em git, o requisito de reversão de estado que limita o LATS em ambientes de produção é trivialmente satisfeito.
O Tree of Thoughts (ToT) alcança 74% no Game of 24 vs 4% para o GPT-4 CoT padrão, organizando o raciocínio de LLM em uma árvore de busca ramificada com poda e backtracking — com implicações diretas para classificação financeira em múltiplas etapas e otimização fiscal em fluxos de trabalho do Beancount.