Aller au contenu principal
Trust

Tout sur Trust

8 articles
Reliability, calibration, and hallucination in financial AI systems

Confiance et calibration des LLM : une étude de ce que montre réellement la recherche

Une étude systématique des méthodes d'estimation de la confiance et de calibration des LLM — approches de logit boîte blanche, SelfCheckGPT basé sur la cohérence et entropie sémantique — révèle que les scores de confiance verbalisés de GPT-4 n'atteignent qu'environ 62,7 % d'AUROC, à peine plus que le hasard, avec des implications directes pour le déploiement d'agents sensibles à l'incertitude dans la finance et la comptabilité.

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.

Utilisation d'outils vérifiablement sûre pour les agents LLM : Quand STPA rencontre MCP

Des chercheurs de CMU et NC State proposent d'utiliser l'Analyse de Processus Systémique (STPA) et un protocole Model Context Protocol enrichi de capacités pour dériver des spécifications de sécurité formelles pour l'utilisation d'outils par les agents LLM, avec une vérification basée sur Alloy démontrant l'absence de flux dangereux dans une étude de cas de planification d'agenda.

AGrail : Des garde-fous de sécurité adaptatifs pour les agents LLM qui apprennent à travers les tâches

AGrail (ACL 2025) introduit un garde-fou coopératif à deux LLM qui adapte les contrôles de sécurité au moment de l'inférence via l'adaptation au temps de test, atteignant un taux de succès d'attaque par injection de prompt de 0 % et une préservation des actions bénignes de 95,6 % sur Safe-OS — comparativement à GuardAgent et LLaMA-Guard qui bloquent jusqu'à 49,2 % des actions légitimes.

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.

GuardAgent : Application déterministe de la sécurité pour les agents LLM via l'exécution de code

GuardAgent (ICML 2025) place un agent LLM distinct entre un agent cible et son environnement, vérifiant chaque action proposée en générant et en exécutant du code Python — atteignant une précision d'application des politiques de 98,7 % tout en préservant 100 % de l'achèvement des tâches, contre 81 % de précision et 29 à 71 % d'échec des tâches pour les règles de sécurité intégrées au prompt.

Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance

Huang et al. (ICLR 2024) démontrent que les LLM invités à réviser leur propre raisonnement sans retour externe dégradent systématiquement leur précision — GPT-4 passe de 95,5 % à 91,5 % sur GSM8K — et ce que cela signifie pour la conception d'agents fiables de saisie de journaux Beancount.

PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers

PHANTOM (NeurIPS 2025) est le premier benchmark mesurant la détection d'hallucinations par les LLM sur de réels dépôts SEC avec des longueurs de contexte allant jusqu'à 30 000 tokens. Qwen3-30B-A3B-Thinking arrive en tête avec un F1=0,882 ; les modèles 7B obtiennent des scores proches du hasard — avec des implications directes pour les agents comptables autonomes.