Aller au contenu principal
Technology

Tout sur Technology

8 articles
Technology research and software engineering topics relevant to financial AI systems

WildToolBench : Pourquoi aucun LLM ne dépasse 15 % de précision par session dans l'utilisation d'outils en conditions réelles

WildToolBench (ICLR 2026) évalue 57 LLM sur 1 024 tâches issues de comportements d'utilisateurs réels — aucun modèle ne dépasse 15 % de précision par session, l'orchestration compositionnelle, l'intention cachée et les transitions d'instructions étant les trois modes d'échec les plus marqués.

Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière

L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.

Self-RAG : Récupération adaptive et autocritique pour les LLM

Self-RAG (ICLR 2024 Oral) entraîne un modèle de langage à décider quand récupérer des informations puis à évaluer ses propres résultats à l'aide de quatre jetons de réflexion — atteignant 55,8 % sur PopQA et un FactScore de 80,2 sur les biographies tout en surpassant ChatGPT sur cinq références. L'analyse couvre le mécanisme, les résultats d'ablation, les limites de reproductibilité et les implications pour les agents d'IA financière sur les grands livres Beancount.

AgentBench : Évaluer les LLM en tant qu'agents — Leçons pour la fiabilité de l'IA en finance

AgentBench (Liu et al., ICLR 2024) évalue 27 LLM à travers 8 environnements interactifs — GPT-4 a obtenu un score global de 4,01 contre 0,96 pour le meilleur modèle open-source. Les trois principaux modes d'échec (limite de tâches dépassée à 67,9 % des échecs de graphes de connaissances, erreurs de format à 53,3 % des échecs de bases de données et actions invalides) correspondent directement aux risques liés au déploiement d'un agent de réécriture Beancount sur un grand livre réel.

MemGPT : Gestion virtuelle du contexte pour les agents LLM

MemGPT applique la pagination de mémoire virtuelle de type OS aux LLM, utilisant un stockage à trois niveaux — mémoire de travail, rappel et archivage — pour donner aux agents un rappel persistant d'une session à l'autre ; sur les benchmarks de chat multi-sessions, MemGPT avec GPT-4 atteint une précision de 92,5 % contre 32,1 % pour une base de référence à contexte fixe.