Confiance et calibration des LLM : une étude de ce que montre réellement la recherche
La semaine dernière, j'ai abordé ReDAct, qui redirige les décisions des agents vers un modèle de secours coûteux lorsque l'incertitude d'un modèle bon marché dépasse un seuil calibré. Cet article contient beaucoup d'approximations concernant l'« incertitude » — il est utile de s'arrêter pour comprendre ce que le domaine sait réellement sur sa mesure et sa calibration. L'étude de Geng et al. intitulée « A Survey of Confidence Estimation and Calibration in Large Language Models » (NAACL 2024) est le bon point de départ : une taxonomie systématique de ce qui fonctionne, de ce qui ne fonctionne pas et de ce que personne n'a encore mesuré.
L'article
Geng, Cai, Wang, Koeppl, Nakov et Gurevych passent en revue la littérature émergente sur l'estimation de la confiance et la calibration des LLM à travers des tâches allant des questions-réponses à choix multiples à la génération ouverte et à la traduction automatique. Le problème central : les LLM peuvent être à la fois très précis et totalement peu fiables d'une manière difficile à distinguer de l'extérieur. L'étude organise l'espace des solutions en deux branches principales — les méthodes « boîte blanche » qui exploitent l'accès aux états internes du modèle, et les méthodes « boîte noire » qui traitent le modèle comme opaque — et au sein de chacune, distingue l'estimation de la confiance de sa calibration post-hoc.
L'article a été publié à la NAACL 2024 (pages 6577–6595), révisé en mars 2024 à partir d'une soumission de novembre 2023 par une équipe issue de la TU Darmstadt, du MBZUAI et de l'Université d'IA Mohamed bin Zayed.
Idées clés
-
Confiance boîte blanche via les logits : L'approche la plus simple utilise les probabilités au niveau des tokens ou la log-vraisemblance normalisée par la longueur comme signal de confiance. Ces méthodes fonctionnent mais font face à une ambiguïté fondamentale : une faible probabilité de token peut refléter une faible confiance factuelle ou simplement une formulation inhabituelle — le modèle peut être incertain quant au choix des mots tout en étant certain du fait sous-jacent.
-
Confiance boîte noire basée sur la cohérence (SelfCheckGPT) : Manakul et al. (EMNLP 2023) échantillonnent plusieurs complétions et évaluent leur cohérence mutuelle à l'aide de BERTScore, NLI ou du chevauchement de n-grammes. Aucun accès aux logits n'est nécessaire. L'idée clé : pour les faits que le LLM connaît bien, les échantillons répétés convergent ; pour les faits hallucinés, ils divergent.
-
Entropie sémantique : Farquhar et al. (Nature, 2024) regroupent les réponses sémantiquement équivalentes avant de calculer l'entropie. Un LLM pourrait formuler « Paris » et « la capitale française » différemment — l'entropie brute des tokens traite ces réponses comme divergentes, contrairement à l'entropie sémantique. C'est une avancée qualitative par rapport à la cohérence au niveau des tokens que l'étude contextualise.
-
La confiance verbalisée est défaillante : Lorsqu'on leur demande de fournir un pourcentage de confiance, les modèles sombrent dans l'excès de confiance. Des travaux empiriques (Groot et al., TrustNLP à l'ACL 2024) révèlent que GPT-3, GPT-3.5 et Vicuna affichent tous une erreur de calibration attendue (ECE) moyenne dépassant 0,377 pour la confiance verbalisée, avec des prédictions se regroupant dans la plage 90–100 % quelle que soit la précision réelle. Même GPT-4 — le modèle le mieux calibré évalué — n'atteint qu'un AUROC d'environ 62,7 % lorsqu'il utilise la confiance verbalisée pour discriminer les réponses correctes des incorrectes, soit à peine plus que le hasard.
-
Les techniques de calibration varient selon la tâche : Pour la classification, la calibration contextuelle (soustraction du biais a priori de classe estimé avec une invite vide « [N/A] ») et le débiaisage de position (PriDE) traitent les biais systématiques connus. Pour la génération, la calibration de la vraisemblance de séquence (SLiC) affine les modèles sur des complétions classées. Le lissage par température — le correctif post-hoc le plus simple — reste compétitif dans de nombreux contextes.
-
Aucun benchmark unifié n'existe : L'observation structurelle la plus accablante de l'étude est l'absence d'un benchmark unique couvrant les méthodes d'estimation de la confiance à travers les tâches et les domaines. Cela rend presque impossible la comparaison rigoureuse des méthodes. Le domaine évalue des pommes par rapport à des oranges.