4 articles tagués avec « Decision-making »

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS : Language Agent Tree Search — Raisonnement, Action et Planification dans un Cadre Unique

LATS (Language Agent Tree Search, ICML 2024) unifie ReAct, Tree of Thoughts et Reflexion dans un cadre MCTS unique, atteignant un pass@1 de 92,7 % sur HumanEval avec GPT-4. Pour les grands livres Beancount basés sur git, l'exigence de réversion d'état qui limite LATS dans les environnements de production est trivialement satisfaite.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM

Tree of Thoughts (ToT) atteint un taux de réussite de 74 % sur le Jeu de 24, contre 4 % pour le CoT standard de GPT-4, en organisant le raisonnement du LLM en un arbre de recherche ramifié avec élagage et retour en arrière — avec des implications directes pour la classification financière multi-étapes et l'optimisation fiscale dans les flux de travail Beancount.

Tout sur Decision-making

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

LATS : Language Agent Tree Search — Raisonnement, Action et Planification dans un Cadre Unique

Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales