Doorgaan naar hoofdinhoud

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Vorige week besprak ik ReDAct, dat beslissingen van agents doorstuurt naar een duurder fallback-model wanneer de onzekerheid van een goedkoop model een gekalibreerde drempel overschrijdt. Dat artikel doet nogal vaag over "onzekerheid" — het is de moeite waard om stil te staan bij wat het vakgebied eigenlijk weet over het meten en kalibreren daarvan. "A Survey of Confidence Estimation and Calibration in Large Language Models" van Geng et al. (NAACL 2024) is het juiste startpunt: een systematische taxonomie van wat werkt, wat niet werkt, en wat nog door niemand gemeten is.

Het artikel

2026-07-09-confidence-estimation-calibration-llms-survey

Geng, Cai, Wang, Koeppl, Nakov en Gurevych onderzoeken de opkomende literatuur over de betrouwbaarheidsschatting en kalibratie van LLM's voor taken variërend van meerkeuze-QA tot open-einde generatie en machinevertaling. Het kernprobleem: LLM's kunnen zowel uiterst nauwkeurig als volledig onbetrouwbaar zijn op manieren die van buitenaf moeilijk te onderscheiden zijn. Het overzicht organiseert de oplossingsruimte in twee hoofdtakken — white-box methoden die gebruikmaken van toegang tot interne modeltoestanden, en black-box methoden die het model als ondoorzichtig beschouwen — en maakt binnen elke tak verder onderscheid tussen het schatten van betrouwbaarheid en het achteraf kalibreren ervan.

Het artikel werd gepubliceerd op NAACL 2024 (pagina's 6577–6595), herzien in maart 2024 na een indiening in november 2023 door een team van de TU Darmstadt, MBZUAI en Mohamed bin Zayed University of AI.

Belangrijke ideeën

  • White-box betrouwbaarheid via logits: De eenvoudigste benadering maakt gebruik van waarschijnlijkheden op token-niveau of lengte-genormaliseerde log-likelihood als betrouwbaarheidssignaal. Deze methoden werken, maar kampen met een fundamentele ambiguïteit: een lage token-waarschijnlijkheid kan wijzen op een lage feitelijke betrouwbaarheid of simpelweg op een ongebruikelijke verwoording — het model kan onzeker zijn over de woordkeuze terwijl het zeker is over het onderliggende feit.

  • Op consistentie gebaseerde black-box betrouwbaarheid (SelfCheckGPT): Manakul et al. (EMNLP 2023) samplen meerdere voltooiingen en scoren hun onderlinge consistentie met behulp van BERTScore, NLI of n-gram overlap. Geen logit-toegang nodig. Het belangrijkste inzicht: voor feiten die de LLM goed kent, convergeren herhaalde samples; voor gehallucineerde feiten lopen ze uiteen.

  • Semantische entropie: Farquhar et al. (Nature, 2024) clusteren semantisch gelijkwaardige antwoorden alvorens de entropie te berekenen. Een LLM zou "Parijs" en "de Franse hoofdstad" anders kunnen verwoorden — ruwe token-entropie behandelt deze als afwijkend, semantische entropie niet. Dit is een kwalitatieve stap voorwaarts ten opzichte van consistentie op token-niveau die in het overzicht wordt gecontextualiseerd.

  • Geverbaliseerde betrouwbaarheid is defect: Wanneer gevraagd wordt om een betrouwbaarheidspercentage te geven, vervallen modellen in overmoed. Empirisch werk (Groot et al., TrustNLP bij ACL 2024) toont aan dat GPT-3, GPT-3.5 en Vicuna allemaal een gemiddelde Expected Calibration Error (ECE) vertonen van meer dan 0,377 voor geverbaliseerde betrouwbaarheid, waarbij voorspellingen zich clusteren in het bereik van 90–100%, ongeacht de werkelijke nauwkeurigheid. Zelfs GPT-4 — het best gekalibreerde model dat is geëvalueerd — behaalt een AUROC van slechts ~62,7% bij het gebruik van geverbaliseerde betrouwbaarheid om correcte van onjuiste antwoorden te onderscheiden, nauwelijks boven kansniveau.

  • Kalibratietechnieken variëren per taak: Voor classificatie pakken contextuele kalibratie (het aftrekken van class-prior bias geschat met een lege "[N/A]" prompt) en positie-debiasing (PriDE) bekende systematische vooroordelen aan. Voor generatie verfijnt Sequence Likelihood Calibration (SLiC) modellen op basis van gerangschikte voltooiingen. Temperature scaling — de eenvoudigste post-hoc oplossing — blijft concurrerend in veel omgevingen.

  • Er bestaat geen uniforme benchmark: De meest vernietigende structurele observatie van het overzicht: er is geen enkele benchmark die betrouwbaarheidsschattingsmethoden over verschillende taken en domeinen heen beslaat. Dit maakt het bijna onmogelijk om methoden rigoureus te vergelijken. Het vakgebied vergelijkt appels met peren.

Wat houdt stand — en wat niet

De taxonomie is solide. Het onderscheid tussen white-box en black-box is echt nuttig voor systeemontwerp, en de behandeling van op logits gebaseerde methoden is eerlijk over hun beperkingen — de auteurs merken direct op dat token-waarschijnlijkheid feitelijke betrouwbaarheid verwart met lexicale onzekerheid. Praktijkmensen onderschatten deze verwarring.

Waar het overzicht me frustreert: het is grotendeels beschrijvend. Er zijn bijna geen experimentele benchmarks die methoden rechtstreeks vergelijken, en de auteurs erkennen dit expliciet als een beperking. Ik blijf achter met een duidelijke kaart van de ontwerpruimte, maar zonder richtlijnen over welke methode te gebruiken voor een nieuwe taak.

De resultaten over geverbaliseerde betrouwbaarheid — GPT-4's AUROC van ~62,7% op zijn eigen uitgesproken betrouwbaarheid — zouden basiskennis moeten zijn voor iedereen die LLM's in productie neemt. Dat is het niet. Mensen sturen nog steeds prompts uit die vragen "op een schaal van 1–10, hoe zeker ben je?" en behandelen het antwoord als betekenisvol. Dat is het niet.

Het overzicht is ook summier over de RLHF-kalibratievraag: maakt post-training met menselijke feedback modellen beter of slechter gekalibreerd? Er is bewijs voor beide kanten, en het overzicht omzeilt dit grotendeels.

Waarom dit van belang is voor financiële AI

ReDAct baseert zijn veiligheidsverhaal op een gekalibreerd onzekerheidssignaal van het goedkope model. Het overzicht maakt duidelijk hoe moeilijk dat eigenlijk is. Op logit gebaseerde signalen zijn beschikbaar in white-box omgevingen, maar verwarren lexicale en feitelijke onzekerheid. Op consistentie gebaseerde methoden werken in black-box scenario's, maar vereisen meerdere samples per beslissing — duur voor een high-throughput Beancount write-back-agent die een batch transactieboekingen verwerkt.

Het meest actiegerichte resultaat voor Bean Labs: semantische entropie clustert semantisch gelijkwaardige antwoorden voordat de consistentie wordt gescoord. Dit is precies wat van belang is voor grootboekmutaties, waarbij een model dezelfde debet/credit-relatie in meerdere syntactisch verschillende vormen kan uitdrukken. Een Beancount-agent zou semantische clustering moeten gebruiken over gesamplede voltooiingen van journaalposten — in plaats van ruwe variantie op token-niveau — om te detecteren wanneer het een rekeningnaam of bedrag hallucineert.

Het falen van de kalibratie bij geverbaliseerde betrouwbaarheid is een directe waarschuwing voor elke UI die "hoe betrouwbaar is de AI?" aan de gebruiker toont: vertrouw het getal dat het model produceert niet. Gebruik in plaats daarvan een externe kalibrator of een op consistentie gebaseerde methode, of toon het helemaal niet.

Wat nu te lezen

  • Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — de meest rigoureuze methode die uit dit overzichtskader voortkomt; de moeite waard om volledig te lezen in plaats van via de samenvatting in het overzicht.
  • Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — de canonieke op consistentie gebaseerde methode; essentieel om te begrijpen voordat u enig black-box betrouwbaarheidssignaal inzet.
  • Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP bij ACL 2024 (arXiv:2405.02917) — de meest grondige empirische audit van hoe geverbaliseerde betrouwbaarheid faalt over verschillende modellen en taken heen.