Salta al contingut principal
Decision-making

Tot Sobre Decision-making

4 articles
Data-driven decision making with financial insights

Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans

ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.

InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera

InvestorBench (ACL 2025) avalua 13 backbones de LLM en la compravenda retroactiva d'accions, criptomonedes i ETF utilitzant el rendiment acumulat i la ràtio de Sharpe — no la precisió de les respostes. Qwen2.5-72B lidera la classificació d'accions amb un 46,15% de CR; els models ajustats per a finances fracassen en les accions. La mida del model prediu el rendiment amb més fiabilitat que l'ajust d'especialització de domini.

LATS: Language Agent Tree Search — Raonament, acció i planificació en un sol framework

LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts i Reflexion en un únic framework MCTS, aconseguint un 92,7% de pass@1 a HumanEval amb GPT-4. Per als llibres de comptabilitat Beancount basats en git, el requisit de reversió d'estat que limita LATS en entorns de producció es satisfà trivialment.

Tree of Thoughts: Resolució Deliberada de Problemes amb Cerca de LLM

Tree of Thoughts (ToT) aconsegueix un 74% en el Joc del 24 en comparació amb el 4% de la CoT estàndard de GPT-4 organitzant el raonament de l'LLM en un arbre de cerca ramificat amb poda i retrocés, amb implicacions directes per a la classificació financera de múltiples passos i l'optimització fiscal en fluxos de treball de Beancount.