2026
- 15 avril - FinBen : Évaluation des LLM sur 36 tâches financières — Implications pour l'IA comptable
- 16 avril - Toolformer : Utilisation d'outils auto-supervisée et ses limites pour l'IA financière
- 17 avril - ReAct : Synergie du raisonnement et de l'action dans les modèles de langage
- 18 avril - Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers
- 19 avril - PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers
- 20 avril - Prompting Chain-of-Thought : Compromis Précision-Rappel pour l'IA en Finance
- 21 avril - IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting
- 22 avril - Les LLM peuvent-ils raisonner sur des données tabulaires ? Ce que quatre benchmarks nous disent sur l'IA financière
- 23 avril - PAL : Modèles de langage assistés par programme pour une arithmétique financière fiable
- 24 avril - Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée
- 25 avril - Reflexion : Des agents de langage qui apprennent de leurs erreurs sans réentraînement
- 26 avril - CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes
- 27 avril - Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM
- 28 avril - Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance
- 29 avril - CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis
- 30 avril - SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?
- 1 mai - SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée
- 2 mai - MemGPT : Gestion virtuelle du contexte pour les agents LLM
- 3 mai - Gorilla : Comment le Retrieval-Aware Training réduit les hallucinations d'API des LLM de 78 % à 11 %
- 4 mai - AutoGen : Cadres de conversation multi-agents pour l'IA financière
- 5 mai - BloombergGPT et les limites des LLM spécialisés dans la finance
- 6 mai - AgentBench : Évaluer les LLM en tant qu'agents — Leçons pour la fiabilité de l'IA en finance
- 7 mai - HippoRAG : Une mémoire à long terme pour les LLM inspirée par la neurobiologie
- 8 mai - Voyager : Les bibliothèques de compétences comme fondement de l'apprentissage continu des agents IA
- 9 mai - Self-RAG : Récupération adaptive et autocritique pour les LLM
- 10 mai - LATS : Language Agent Tree Search — Raisonnement, Action et Planification dans un Cadre Unique
- 11 mai - DSPy : Remplacer l'ingénierie de prompt fragile par des pipelines LLM compilés
- 12 mai - FinanceBench : Pourquoi le RAG avec base de données vectorielle échoue sur les documents financiers réels
- 13 mai - FinQA : Le benchmark mesurant le raisonnement numérique de l'IA sur les rapports financiers
- 14 mai - TAT-QA : Un benchmark de QA hybride tableau-texte pour le raisonnement sur les rapports annuels financiers
- 15 mai - ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains
- 16 mai - MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques
- 17 mai - Génération augmentée par récupération pour les tâches de TAL à forte intensité de connaissances
- 18 mai - FLARE : Génération augmentée par récupération active
- 19 mai - IRCoT : Entrelacer la recherche d'information avec la chaîne de pensée pour les questions-réponses multi-étapes
- 20 mai - Fine-Tuning vs RAG : Pourquoi la récupération l'emporte pour l'injection de nouvelles connaissances dans les LLM
- 21 mai - TAT-LLM : LLaMA 2 affiné pour le raisonnement discret sur les tableaux et textes financiers
- 22 mai - AuditCopilot : les LLM pour la détection de fraude en comptabilité en partie double
- 23 mai - Les LLM ne sont pas utiles pour la prévision de séries temporelles : ce que NeurIPS 2024 signifie pour l'IA financière
- 24 mai - Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif
- 25 mai - GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code
- 26 mai - Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative
- 27 mai - Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards
- 28 mai - ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM
- 29 mai - AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches
- 30 mai - M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?
- 31 mai - Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion
- 1 juin - StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points
- 2 juin - InvestorBench : Évaluation des agents LLM sur les décisions de trading financier
- 3 juin - FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC
- 4 juin - GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes
- 5 juin - Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP
- 6 juin - Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM
- 7 juin - DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL
- 8 juin - MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL
- 9 juin - TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount
- 10 juin - TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?
- 11 juin - Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM
- 12 juin - τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils
- 13 juin - WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise
- 14 juin - WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire
- 15 juin - OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %
- 16 juin - Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire
- 17 juin - WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles
- 18 juin - τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels
- 19 juin - TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles
- 20 juin - DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC
- 21 juin - Détection d'anomalies Zero-Shot avec les LLM : performances de GPT-4 sur les données tabulaires
- 22 juin - TableMaster : Raisonnement adaptatif pour la compréhension de tableaux avec les LLM
- 23 juin - Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy
- 24 juin - AnoLLM : Fine-Tuning de LLM pour la détection d'anomalies tabulaires dans les données financières
- 25 juin - CausalTAD : Ordonnancement causal des colonnes pour la détection d'anomalies tabulaires par LLM
- 26 juin - Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles
- 27 juin - Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière
- 28 juin - FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier
- 29 juin - Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités
- 30 juin - OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance
- 1 juillet - Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle
- 2 juillet - Found in the Middle : Calibrer le biais d'attention positionnelle améliore le RAG à long contexte
- 3 juillet - Étude sur la détection d'anomalies par LLM (NAACL 2025) : Une taxonomie robuste, une couverture tabulaire absente
- 4 juillet - OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier
- 5 juillet - FinToolBench : Évaluer les agents LLM sur l'utilisation d'outils financiers en conditions réelles
- 6 juillet - FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières
- 7 juillet - FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP
- 8 juillet - JSONSchemaBench : la complexité des schémas réels brise les garanties de sortie structurée des LLM
- 9 juillet - Confiance et calibration des LLM : une étude de ce que montre réellement la recherche
- 10 juillet - WildToolBench : Pourquoi aucun LLM ne dépasse 15 % de précision par session dans l'utilisation d'outils en conditions réelles
- 11 juillet - Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important
- 12 juillet - FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier
