Zum Hauptinhalt springen

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Letzte Woche habe ich über ReDAct berichtet, das Entscheidungen von Agenten an ein teures Fallback-Modell weiterleitet, wenn die Unsicherheit eines günstigen Modells einen kalibrierten Schwellenwert überschreitet. Dieses Paper macht viele vage Aussagen über „Unsicherheit“ – es lohnt sich, innezuhalten und zu verstehen, was die Forschung tatsächlich über deren Messung und Kalibrierung weiß. Geng et al.s „A Survey of Confidence Estimation and Calibration in Large Language Models“ (NAACL 2024) ist der richtige Ausgangspunkt: eine systematische Taxonomie dessen, was funktioniert, was nicht funktioniert und was bisher noch niemand gemessen hat.

Das Paper

2026-07-09-confidence-estimation-calibration-llms-survey

Geng, Cai, Wang, Koeppl, Nakov und Gurevych untersuchen die aufkommende Literatur zur Konfidenzschätzung und Kalibrierung von LLMs über verschiedene Aufgaben hinweg, von Multiple-Choice-Fragen bis hin zu offener Generierung und maschineller Übersetzung. Das Kernproblem: LLMs können gleichzeitig hochpräzise und völlig unzuverlässig sein, und zwar auf eine Weise, die von außen schwer zu unterscheiden ist. Der Überblick unterteilt den Lösungsraum in zwei Hauptzweige – White-Box-Methoden, die den Zugriff auf interne Modellzustände nutzen, und Black-Box-Methoden, die das Modell als undurchsichtig behandeln – und unterscheidet innerhalb dieser weiter zwischen der Schätzung der Konfidenz und deren nachträglicher (post-hoc) Kalibrierung.

Das Paper wurde auf der NAACL 2024 veröffentlicht (Seiten 6577–6595) und im März 2024 auf Basis einer Einreichung vom November 2023 von einem Team der TU Darmstadt, der MBZUAI und der Mohamed bin Zayed University of AI überarbeitet.

Kernaussagen

  • White-Box-Konfidenz via Logits: Der einfachste Ansatz nutzt Wahrscheinlichkeiten auf Token-Ebene oder die längennormierte Log-Likelihood als Konfidenzsignal. Diese Methoden funktionieren, stehen aber vor einer grundlegenden Mehrdeutigkeit: Eine niedrige Token-Wahrscheinlichkeit kann eine geringe faktische Konfidenz widerspiegeln oder einfach eine ungewöhnliche Formulierung – das Modell kann sich bei der Wortwahl unsicher sein, während es sich bezüglich des zugrunde liegenden Fakts sicher ist.

  • Konsistenzbasierte Black-Box-Konfidenz (SelfCheckGPT): Manakul et al. (EMNLP 2023) sampeln mehrere Vervollständigungen und bewerten deren gegenseitige Konsistenz mittels BERTScore, NLI oder n-Gramm-Überschneidung. Kein Logit-Zugriff erforderlich. Die zentrale Erkenntnis: Bei Fakten, die das LLM gut kennt, konvergieren wiederholte Stichproben; bei halluzinierten Fakten divergieren sie.

  • Semantische Entropie: Farquhar et al. (Nature, 2024) gruppieren semantisch äquivalente Antworten, bevor sie die Entropie berechnen. Ein LLM könnte „Paris“ und „die französische Hauptstadt“ unterschiedlich formulieren – die rohe Token-Entropie behandelt diese als divergent, die semantische Entropie hingegen nicht. Dies ist ein qualitativer Fortschritt gegenüber der Konsistenz auf Token-Ebene, den der Überblick kontextualisiert.

  • Verbalisierte Konfidenz ist unbrauchbar: Wenn Modelle aufgefordert werden, einen Konfidenzprozentsatz auszugeben, verfallen sie in Überkonfidenz. Empirische Arbeiten (Groot et al., TrustNLP auf der ACL 2024) zeigen, dass GPT-3, GPT-3.5 und Vicuna alle einen durchschnittlichen Erwarteten Kalibrierungsfehler (ECE) von über 0,377 für verbalisierte Konfidenz aufweisen, wobei sich die Vorhersagen unabhängig von der tatsächlichen Genauigkeit im Bereich von 90–100 % häufen. Selbst GPT-4 – das am besten kalibrierte evaluierte Modell – erreicht einen AUROC von nur ca. 62,7 %, wenn verbalisierte Konfidenz zur Unterscheidung korrekter von inkorrekten Antworten verwendet wird, was kaum über dem Zufallsniveau liegt.

  • Kalibrierungstechniken variieren je nach Aufgabe: Für die Klassifizierung adressieren die kontextuelle Kalibrierung (Subtraktion des mit einem leeren „[N/A]“-Prompt geschätzten Class-Prior-Bias) und das Position-Debiasing (PriDE) bekannte systematische Verzerrungen. Für die Generierung optimiert Sequence Likelihood Calibration (SLiC) Modelle auf der Grundlage von gerankten Vervollständigungen. Temperature Scaling – die einfachste Post-hoc-Korrektur – bleibt in vielen Szenarien wettbewerbsfähig.

  • Es existiert kein einheitlicher Benchmark: Die wohl gravierendste strukturelle Beobachtung der Untersuchung ist, dass es keinen einzelnen Benchmark gibt, der Methoden zur Konfidenzschätzung über Aufgaben und Domänen hinweg abdeckt. Dies macht es nahezu unmöglich, Methoden rigoros zu vergleichen. Das Feld vergleicht Äpfel mit Birnen.

Was Bestand hat – und was nicht

Die Taxonomie ist solide. Die Unterscheidung zwischen White-Box und Black-Box ist für das Systemdesign wirklich nützlich, und die Behandlung von Logit-basierten Methoden ist ehrlich in Bezug auf deren Grenzen – die Autoren stellen direkt fest, dass die Token-Wahrscheinlichkeit faktische Konfidenz mit lexikalischer Unsicherheit vermengt. Praktiker unterschätzen diese Vermengung oft.

Wo mich die Untersuchung frustriert: Sie ist weitgehend deskriptiv. Es gibt fast keine experimentellen Benchmarks, die Methoden direkt miteinander vergleichen, und die Autoren räumen dies explizit als Einschränkung ein. Man erhält zwar eine klare Karte des Design-Raums, aber keine Anleitung dazu, welche Methode für eine neue Aufgabe zu verwenden ist.

Die Ergebnisse zur verbalisierten Konfidenz – ein AUROC von ~62,7 % für die von GPT-4 selbst angegebene Konfidenz – sollten zum Standardwissen für jeden gehören, der LLMs produktiv einsetzt. Das ist jedoch nicht der Fall. Es werden immer noch Prompts ausgeliefert, die fragen: „Auf einer Skala von 1–10, wie sicher bist du dir?“, und die Antwort wird als aussagekräftig behandelt. Das ist sie nicht.

Die Untersuchung ist zudem recht knapp bei der Frage der RLHF-Kalibrierung: Führt das Nachtraining mit menschlichem Feedback zu besser oder schlechter kalibrierten Modellen? Es gibt Belege für beides, und der Überblick umgeht dieses Thema weitgehend.

Warum dies für Finanz-KI wichtig ist

ReDAct stützt sein Sicherheitskonzept darauf, ein kalibriertes Unsicherheitssignal vom günstigen Modell zu erhalten. Der Überblick verdeutlicht, wie schwierig das tatsächlich ist. Logit-basierte Signale sind in White-Box-Szenarien verfügbar, vermengen aber lexikalische und faktische Unsicherheit. Konsistenzbasierte Methoden funktionieren in Black-Box-Szenarien, erfordern jedoch mehrere Stichproben pro Entscheidung – was teuer für einen Beancount-Write-Back-Agenten mit hohem Durchsatz ist, der einen Stapel von Transaktionseinträgen verarbeitet.

Die wichtigste Erkenntnis für Bean Labs: Die semantische Entropie gruppiert semantisch äquivalente Antworten, bevor die Konsistenz bewertet wird. Genau das ist entscheidend für Buchungseinträge, bei denen ein Modell dieselbe Soll/Haben-Beziehung in mehreren syntaktisch unterschiedlichen Formen ausdrücken könnte. Ein Beancount-Agent sollte semantisches Clustering über gesampelte Vervollständigungen von Buchungseinträgen verwenden – und nicht die reine Varianz auf Token-Ebene –, um zu erkennen, wenn er einen Kontonamen oder einen Betrag halluziniert.

Das Scheitern der Kalibrierung bei verbalisierter Konfidenz ist eine direkte Warnung für jedes UI, das dem Benutzer anzeigt, „wie sicher sich die KI ist“: Vertrauen Sie nicht der Zahl, die das Modell generiert. Verwenden Sie stattdessen einen externen Kalibrator oder eine konsistenzbasierte Methode, oder zeigen Sie die Konfidenz gar nicht erst an.

Was Sie als Nächstes lesen sollten

  • Farquhar et al., „Detecting hallucinations in large language models using semantic entropy,“ Nature, 2024 – die fundierteste Methode, die aus diesem Survey-Rahmen hervorgeht; es lohnt sich, das Original vollständig zu lesen, anstatt nur die Zusammenfassung der Untersuchung.
  • Manakul et al., „SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models,“ EMNLP 2023 (arXiv:2303.08896) – die kanonische konsistenzbasierte Methode; unerlässlich zum Verständnis, bevor man ein Black-Box-Konfidenzsignal einsetzt.
  • Groot et al., „Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models,“ TrustNLP auf der ACL 2024 (arXiv:2405.02917) – die gründlichste empirische Prüfung darüber, wie verbalisierte Konfidenz über Modelle und Aufgaben hinweg versagt.