Mike Thrift
Marketing Manager
Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM
Le benchmark BIRD (NeurIPS 2023) teste les LLM sur 95 bases de données réelles — GPT-4 n'atteint que 54,89 % de précision d'exécution avec des indices de domaine et 34,88 % sans, un écart de 20 points qui définit directement les défis qu'une interface BQL en langage naturel pour Beancount devrait résoudre.
Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP
Des chercheurs de CMU et NC State proposent d'utiliser l'Analyse de Processus Systémique (STPA) et un protocole Model Context Protocol enrichi de capacités pour dériver des spécifications de sécurité formelles pour l'utilisation d'outils par les agents LLM, avec une vérification basée sur Alloy démontrant l'absence de flux dangereux dans une étude de cas de planification d'agenda.
GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes
Le GraphRAG de Microsoft construit un graphe d'entités partitionné selon Leiden sur un corpus de texte et précalcule des résumés de communauté pour répondre aux questions de compréhension globale que le RAG vectoriel standard ne peut pas gérer — mais un audit de biais de 2025 montre que ses taux de victoire de 72 à 83 % s'effondrent après correction des artefacts de position et de longueur dans l'évaluation par LLM en tant que juge.
FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC
FinAuditing teste 13 LLM en zero-shot sur 1 102 instances réelles de dépôts XBRL de la SEC ; les meilleurs scores sont de 13,86 % sur la vérification mathématique financière et de 12,42 % sur l'extraction de concepts — des résultats qui limitent directement ce que les outils de comptabilité par IA peuvent automatiser en toute confiance sans outils externes.
InvestorBench : Évaluation des agents LLM sur les décisions de trading financier
InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.
StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points
StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.
Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion
Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.
M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?
M3MAD-Bench met à l'épreuve le débat multi-agent sur 9 modèles, 5 domaines et des configurations vision-langage, révélant que le délire collectif cause 65 % des échecs, que le débat contradictoire réduit la précision jusqu'à 12,8 % et que l'auto-cohérence égale généralement la précision du débat à un coût en jetons inférieur.
AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches
AGrail (ACL 2025) introduit un garde-fou coopératif à deux LLM qui adapte les contrôles de sécurité au moment de l'inférence via l'adaptation au temps de test, atteignant un taux de succès d'attaque par injection de prompt de 0 % et une préservation des actions bénignes de 95,6 % sur Safe-OS — comparativement à GuardAgent et LLaMA-Guard qui bloquent jusqu'à 49,2 % des actions légitimes.
ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM
ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.
Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards
Atlas (JMLR 2023) atteint une précision de 42,4 % sur Natural Questions avec seulement 64 exemples d'entraînement — battant PaLM 540B de 3 points en utilisant 11B paramètres — grâce au pré-entraînement conjoint d'un extracteur dense basé sur Contriever avec un lecteur T5 Fusion-in-Decoder. L'analyse couvre les limites de précision de récupération, les coûts d'infrastructure d'un index de 587 Go et les implications pour les systèmes de QA sur les grands livres Beancount.
Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative
L'architecture FiD d'Izacard et Grave encode indépendamment les passages récupérés puis les fusionne dans le décodeur, surpassant RAG-Sequence de 4 à 11 points sur NQ et TriviaQA. Cet article examine la conception et ses implications pour l'AQ des grands livres Beancount, où la synthèse multi-entrées à travers les transactions est la norme.