Aller au contenu principal

Confiance et calibration des LLM : une étude de ce que montre réellement la recherche

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

La semaine dernière, j'ai abordé ReDAct, qui redirige les décisions des agents vers un modèle de secours coûteux lorsque l'incertitude d'un modèle bon marché dépasse un seuil calibré. Cet article contient beaucoup d'approximations concernant l'« incertitude » — il est utile de s'arrêter pour comprendre ce que le domaine sait réellement sur sa mesure et sa calibration. L'étude de Geng et al. intitulée « A Survey of Confidence Estimation and Calibration in Large Language Models » (NAACL 2024) est le bon point de départ : une taxonomie systématique de ce qui fonctionne, de ce qui ne fonctionne pas et de ce que personne n'a encore mesuré.

L'article

2026-07-09-confidence-estimation-calibration-llms-survey

Geng, Cai, Wang, Koeppl, Nakov et Gurevych passent en revue la littérature émergente sur l'estimation de la confiance et la calibration des LLM à travers des tâches allant des questions-réponses à choix multiples à la génération ouverte et à la traduction automatique. Le problème central : les LLM peuvent être à la fois très précis et totalement peu fiables d'une manière difficile à distinguer de l'extérieur. L'étude organise l'espace des solutions en deux branches principales — les méthodes « boîte blanche » qui exploitent l'accès aux états internes du modèle, et les méthodes « boîte noire » qui traitent le modèle comme opaque — et au sein de chacune, distingue l'estimation de la confiance de sa calibration post-hoc.

L'article a été publié à la NAACL 2024 (pages 6577–6595), révisé en mars 2024 à partir d'une soumission de novembre 2023 par une équipe issue de la TU Darmstadt, du MBZUAI et de l'Université d'IA Mohamed bin Zayed.

Idées clés

  • Confiance boîte blanche via les logits : L'approche la plus simple utilise les probabilités au niveau des tokens ou la log-vraisemblance normalisée par la longueur comme signal de confiance. Ces méthodes fonctionnent mais font face à une ambiguïté fondamentale : une faible probabilité de token peut refléter une faible confiance factuelle ou simplement une formulation inhabituelle — le modèle peut être incertain quant au choix des mots tout en étant certain du fait sous-jacent.

  • Confiance boîte noire basée sur la cohérence (SelfCheckGPT) : Manakul et al. (EMNLP 2023) échantillonnent plusieurs complétions et évaluent leur cohérence mutuelle à l'aide de BERTScore, NLI ou du chevauchement de n-grammes. Aucun accès aux logits n'est nécessaire. L'idée clé : pour les faits que le LLM connaît bien, les échantillons répétés convergent ; pour les faits hallucinés, ils divergent.

  • Entropie sémantique : Farquhar et al. (Nature, 2024) regroupent les réponses sémantiquement équivalentes avant de calculer l'entropie. Un LLM pourrait formuler « Paris » et « la capitale française » différemment — l'entropie brute des tokens traite ces réponses comme divergentes, contrairement à l'entropie sémantique. C'est une avancée qualitative par rapport à la cohérence au niveau des tokens que l'étude contextualise.

  • La confiance verbalisée est défaillante : Lorsqu'on leur demande de fournir un pourcentage de confiance, les modèles sombrent dans l'excès de confiance. Des travaux empiriques (Groot et al., TrustNLP à l'ACL 2024) révèlent que GPT-3, GPT-3.5 et Vicuna affichent tous une erreur de calibration attendue (ECE) moyenne dépassant 0,377 pour la confiance verbalisée, avec des prédictions se regroupant dans la plage 90–100 % quelle que soit la précision réelle. Même GPT-4 — le modèle le mieux calibré évalué — n'atteint qu'un AUROC d'environ 62,7 % lorsqu'il utilise la confiance verbalisée pour discriminer les réponses correctes des incorrectes, soit à peine plus que le hasard.

  • Les techniques de calibration varient selon la tâche : Pour la classification, la calibration contextuelle (soustraction du biais a priori de classe estimé avec une invite vide « [N/A] ») et le débiaisage de position (PriDE) traitent les biais systématiques connus. Pour la génération, la calibration de la vraisemblance de séquence (SLiC) affine les modèles sur des complétions classées. Le lissage par température — le correctif post-hoc le plus simple — reste compétitif dans de nombreux contextes.

  • Aucun benchmark unifié n'existe : L'observation structurelle la plus accablante de l'étude est l'absence d'un benchmark unique couvrant les méthodes d'estimation de la confiance à travers les tâches et les domaines. Cela rend presque impossible la comparaison rigoureuse des méthodes. Le domaine évalue des pommes par rapport à des oranges.

Ce qui tient la route — et ce qui ne la tient pas

La taxonomie est solide. La distinction boîte blanche vs boîte noire est réellement utile pour la conception de systèmes, et le traitement des méthodes basées sur les logits est honnête quant à leurs limites — les auteurs notent directement que la probabilité des tokens confond la confiance factuelle avec l'incertitude lexicale. Les praticiens sous-estiment cette confusion.

Là où l'étude me frustre : elle est largement descriptive. Il n'y a presque aucun benchmark expérimental comparant les méthodes en face à face, et les auteurs reconnaissent explicitement cela comme une limite. Je repars avec une carte claire de l'espace de conception, mais sans guide sur la méthode à utiliser pour une nouvelle tâche.

Les résultats sur la confiance verbalisée — l'AUROC de GPT-4 d'environ 62,7 % sur sa propre confiance déclarée — devraient être une connaissance canonique pour quiconque déploie des LLM en production. Ce n'est pas le cas. Des gens déploient encore des invites demandant « sur une échelle de 1 à 10, quel est votre niveau de confiance ? » et traitent la réponse comme significative. Elle ne l'est pas.

L'étude est également légère sur la question de la calibration par RLHF : l'entraînement post-entraînement avec feedback humain rend-il les modèles mieux ou moins bien calibrés ? Il existe des preuves dans les deux sens, et l'étude les élude largement.

Pourquoi cela compte pour l'IA en finance

ReDAct fonde sa sécurité sur la possession d'un signal d'incertitude calibré provenant du modèle bon marché. L'étude montre clairement à quel point c'est difficile en réalité. Les signaux basés sur les logits sont disponibles dans les environnements en boîte blanche mais confondent incertitude lexicale et factuelle. Les méthodes basées sur la cohérence fonctionnent en boîte noire mais nécessitent plusieurs échantillons par décision — ce qui est coûteux pour un agent d'écriture Beancount à haut débit traitant un lot d'écritures de transactions.

La conclusion la plus exploitable pour Bean Labs : l'entropie sémantique regroupe les réponses sémantiquement équivalentes avant d'évaluer la cohérence, ce qui est précisément ce qui importe pour les écritures comptables où un modèle pourrait exprimer la même relation débit/crédit sous plusieurs formes syntaxiquement distinctes. Un agent Beancount devrait utiliser le regroupement sémantique sur des complétions d'écritures comptables échantillonnées — et non la variance brute au niveau des tokens — pour détecter quand il hallucine un nom de compte ou un montant.

L'échec de la calibration de la confiance verbalisée est un avertissement direct pour toute interface utilisateur qui affiche « quel est le niveau de confiance de l'IA ? » à l'utilisateur : ne faites pas confiance au chiffre produit par le modèle. Utilisez plutôt un calibrateur externe ou une méthode basée sur la cohérence, ou ne l'affichez pas du tout.

Que lire ensuite

  • Farquhar et al., « Detecting hallucinations in large language models using semantic entropy », Nature, 2024 — la méthode la plus rigoureuse issue de ce cadre d'étude ; mérite d'être lue en entier plutôt qu'à travers le résumé de l'étude.
  • Manakul et al., « SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models », EMNLP 2023 (arXiv:2303.08896) — la méthode canonique basée sur la cohérence ; essentielle à comprendre avant de déployer tout signal de confiance en boîte noire.
  • Groot et al., « Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models », TrustNLP à l'ACL 2024 (arXiv:2405.02917) — l'audit empirique le plus approfondi sur la façon dont la confiance verbalisée échoue selon les modèles et les tâches.