Mike Thrift

Marketing Manager

June 6, 2026·mike

Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM

Le benchmark BIRD (NeurIPS 2023) teste les LLM sur 95 bases de données réelles — GPT-4 n'atteint que 54,89 % de précision d'exécution avec des indices de domaine et 34,88 % sans, un écart de 20 points qui définit directement les défis qu'une interface BQL en langage naturel pour Beancount devrait résoudre.

beancount

llm

June 5, 2026·mike

Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP

Des chercheurs de CMU et NC State proposent d'utiliser l'Analyse de Processus Systémique (STPA) et un protocole Model Context Protocol enrichi de capacités pour dériver des spécifications de sécurité formelles pour l'utilisation d'outils par les agents LLM, avec une vérification basée sur Alloy démontrant l'absence de flux dangereux dans une étude de cas de planification d'agenda.

llm

security

June 4, 2026·mike

GraphRAG : de la recherche locale à la synthèse globale centrée sur les requêtes

Le GraphRAG de Microsoft construit un graphe d'entités partitionné selon Leiden sur un corpus de texte et précalcule des résumés de communauté pour répondre aux questions de compréhension globale que le RAG vectoriel standard ne peut pas gérer — mais un audit de biais de 2025 montre que ses taux de victoire de 72 à 83 % s'effondrent après correction des artefacts de position et de longueur dans l'évaluation par LLM en tant que juge.

llm

machine-learning

June 3, 2026·mike

FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC

FinAuditing teste 13 LLM en zero-shot sur 1 102 instances réelles de dépôts XBRL de la SEC ; les meilleurs scores sont de 13,86 % sur la vérification mathématique financière et de 12,42 % sur l'extraction de concepts — des résultats qui limitent directement ce que les outils de comptabilité par IA peuvent automatiser en toute confiance sans outils externes.

llm

financial-reporting

June 2, 2026·mike

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025) : Choisir la bonne structure de document surpasse GraphRAG de 28 points

StructRAG (ICLR 2025) oriente chaque requête vers un type de structure adapté à la tâche — tableau, graphe, catalogue, algorithme ou fragment — avant le raisonnement, obtenant un score supérieur de 28 points à GraphRAG sur le benchmark Loong tout en étant 22 fois plus rapide, le routeur entraîné par DPO représentant à lui seul un gain de précision de 15 points.

llm

machine-learning

May 31, 2026·mike

Les LLM à agent unique surpassent les systèmes multi-agents en raisonnement multi-sauts à budget égal de jetons de réflexion

Un préprint de Stanford de 2026 égalise les budgets de jetons de réflexion sur cinq architectures multi-agents et révèle que les LLM à agent unique égalent ou surpassent les systèmes multi-agents sur le raisonnement multi-sauts — avec un fondement théorique dans l'inégalité de traitement de l'information et des implications pour la conception d'agents d'IA en finance.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?

M3MAD-Bench met à l'épreuve le débat multi-agent sur 9 modèles, 5 domaines et des configurations vision-langage, révélant que le délire collectif cause 65 % des échecs, que le débat contradictoire réduit la précision jusqu'à 12,8 % et que l'auto-cohérence égale généralement la précision du débat à un coût en jetons inférieur.

llm

machine-learning

May 29, 2026·mike

AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches

AGrail (ACL 2025) introduit un garde-fou coopératif à deux LLM qui adapte les contrôles de sécurité au moment de l'inférence via l'adaptation au temps de test, atteignant un taux de succès d'attaque par injection de prompt de 0 % et une préservation des actions bénignes de 95,6 % sur Safe-OS — comparativement à GuardAgent et LLaMA-Guard qui bloquent jusqu'à 49,2 % des actions légitimes.

llm

security

May 28, 2026·mike

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.

llm

machine-learning

May 27, 2026·mike

Atlas : le pré-entraînement conjoint de l'extracteur et du lecteur surpasse les LLM à 540 milliards de paramètres avec seulement 11 milliards

Atlas (JMLR 2023) atteint une précision de 42,4 % sur Natural Questions avec seulement 64 exemples d'entraînement — battant PaLM 540B de 3 points en utilisant 11B paramètres — grâce au pré-entraînement conjoint d'un extracteur dense basé sur Contriever avec un lecteur T5 Fusion-in-Decoder. L'analyse couvre les limites de précision de récupération, les coûts d'infrastructure d'un index de 587 Go et les implications pour les systèmes de QA sur les grands livres Beancount.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative

L'architecture FiD d'Izacard et Grave encode indépendamment les passages récupérés puis les fusionne dans le décodeur, surpassant RAG-Sequence de 4 à 11 points sur NQ et TriviaQA. Cet article examine la conception et ses implications pour l'AQ des grands livres Beancount, où la synthèse multi-entrées à travers les transactions est la norme.

machine-learning

llm

Affichage de 37–48 sur 87 articles

Préc.4 / 8Suiv.