ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.
InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.
LATS (Language Agent Tree Search, ICML 2024) unifie ReAct, Tree of Thoughts et Reflexion dans un cadre MCTS unique, atteignant un pass@1 de 92,7 % sur HumanEval avec GPT-4. Pour les grands livres Beancount basés sur git, l'exigence de réversion d'état qui limite LATS dans les environnements de production est trivialement satisfaite.
Tree of Thoughts (ToT) atteint un taux de réussite de 74 % sur le Jeu de 24, contre 4 % pour le CoT standard de GPT-4, en organisant le raisonnement du LLM en un arbre de recherche ramifié avec élagage et retour en arrière — avec des implications directes pour la classification financière multi-étapes et l'optimisation fiscale dans les flux de travail Beancount.