Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca
La setmana passada vaig parlar de ReDAct, que redirigeix les decisions de l'agent a un model de suport costós quan la incertesa d'un model barat supera un llindar calibrat. Aquest article fa moltes generalitzacions sobre la "incertesa"; val la pena aturar-se a entendre què sap realment el camp sobre com mesurar-la i calibrar-la. L'article de Geng et al., "A Survey of Confidence Estimation and Calibration in Large Language Models" (NAACL 2024), és el lloc adequat per començar: una taxonomia sistemàtica del que funciona, del que no i del que ningú ha mesurat encara.
L'article
Geng, Cai, Wang, Koeppl, Nakov i Gurevych analitzen la literatura emergent sobre l'estimació de la confiança i el calibratge dels LLM en tasques que van des de preguntes de resposta múltiple fins a la generació oberta i la traducció automàtica. El problema central: els LLM poden ser alhora altament precisos i completament poc fiables de maneres difícils de distingir des de l'exterior. L'enquesta organitza l'espai de solucions en dues branques principals: mètodes de caixa blanca que aprofiten l'accés als estats interns del model, i mètodes de caixa negra que tracten el model com a opac; i dins de cada branca, distingeix entre l'estimació de la confiança i el seu calibratge post hoc.
L'article es va publicar a NAACL 2024 (pàgines 6577–6595), revisat el març de 2024 a partir d'una presentació de novembre de 2023 per un equip format per membres de la TU Darmstadt, MBZUAI i la Universitat d'IA Mohamed bin Zayed.
Idees clau
-
Confiança de caixa blanca mitjançant logits: L'enfocament més senzill utilitza les probabilitats a nivell de token o la log-versemblança normalitzada per longitud com a senyal de confiança. Aquests mètodes funcionen però s'enfronten a una ambigüitat fonamental: una probabilitat de token baixa pot reflectir una confiança fàctica baixa o simplement una redacció inusual; el model pot estar insegur sobre l'elecció de les paraules mentre està segur del fet subjacent.
-
Confiança de caixa negra basada en la consistència (SelfCheckGPT): Manakul et al. (EMNLP 2023) mostregen múltiples finalitzacions i puntuen la seva consistència mútua mitjançant BERTScore, NLI o superposició de n-grames. No cal accés als logits. La idea clau: per als fets que l'LLM coneix bé, les mostres repetides convergeixen; per als fets al·lucinats, divergeixen.
-
Entropia semàntica: Farquhar et al. (Nature, 2024) agrupen respostes semànticament equivalents abans de calcular l'entropia. Un LLM podria redactar "París" i "la capital francesa" de manera diferent; l'entropia de tokens bruta tracta aquestes respostes com a divergents, però l'entropia semàntica no. Aquest és un pas endavant qualitatiu sobre la consistència a nivell de token que l'enquesta contextualitza.
-
La confiança verbalitzada no funciona: Quan se'ls demana que emetin un percentatge de confiança, els models col·lapsen en l'excés de confiança. El treball empíric (Groot et al., TrustNLP a ACL 2024) troba que el GPT-3, el GPT-3.5 i el Vicuna mostren un Error de Calibratge Esperat (ECE) mitjà superior a 0,377 per a la confiança verbalitzada, amb prediccions que s'agrupen en el rang del 90–100% independentment de la precisió real. Fins i tot el GPT-4 —el model millor calibrat avaluat— assoleix un AUROC de només ~62,7% quan utilitza la confiança verbalitzada per discriminar les respostes correctes de les incorrectes, tot just per sobre de l'atzar.
-
Les tècniques de calibratge varien segons la tasca: Per a la classificació, el calibratge contextual (restant el biaix previ de classe estimat amb un prompt "[N/A]" buit) i la desbiatització de la posició (PriDE) aborden biaixos sistemàtics coneguts. Per a la generació, el Calibratge de Versemblança de Seqüència (SLiC) ajusta els models en finalitzacions classificades. L'escalat de temperatura —la correcció post-hoc més senzilla— continua sent competitiu en molts entorns.
-
No existeix cap benchmark unificat: L'observació estructural més demolidora de l'enquesta: no hi ha cap benchmark únic que abasti els mètodes d'estimació de la confiança en totes les tasques i dominis. Això fa que sigui gairebé impossible comparar els mètodes de manera rigorosa. El camp està comparant pomes amb peres.
Què se sosté — i què no
La taxonomia és sòlida. La distinció entre caixa blanca i caixa negra és realment útil per al disseny de sistemes, i el tractament dels mètodes basats en logits és honest sobre els seus límits; els autors assenyalen directament que la probabilitat del token barreja la confiança fàctica amb la incertesa lèxica. Els professionals solen subestimar aquesta confusió.
On l'enquesta em frustra: és principalment descriptiva. Gairebé no hi ha benchmarks experimentals que comparin mètodes cara a cara, i els autors ho reconeixen explícitament com una limitació. Puc marxar amb un mapa clar de l'espai de disseny però sense cap orientació sobre quin mètode utilitzar per a una tasca nova.
Els resultats de la confiança verbalitzada —l'AUROC del ~62,7% del GPT-4 sobre la seva pròpia confiança declarada— haurien de ser coneixements canònics per a qualsevol persona que desplegui LLM en producció. No ho són. La gent encara envia prompts que pregunten "en una escala de l'1 al 10, quina confiança tens?" i tracten la resposta com a significativa. No ho és.
L'enquesta també és escassa en la qüestió del calibratge per RLHF: l'entrenament posterior amb retroalimentació humana fa que els models estiguin millor o pitjor calibrats? Hi ha proves en ambdós sentits, i l'enquesta ho esquiva en gran mesura.
Per què això importa per a la IA en finances
ReDAct basa la seva seguretat en tenir un senyal d'incertesa calibrat del model barat. L'enquesta deixa clar com de difícil és realment això. Els senyals basats en logits estan disponibles en entorns de caixa blanca però barregen la incertesa lèxica i la fàctica. Els mètodes basats en la consistència funcionen en entorns de caixa negra però requereixen múltiples mostres per decisió, la qual cosa és costosa per a un agent d'escriptura de Beancount d'alt rendiment que processa un lot d'assentaments de transaccions.
La troballa més executable per a Bean Labs: l'entropia semàntica agrupa respostes semànticament equivalents abans de puntuar la consistència, que és precisament el que importa per als assentaments del llibre diari on un model podria expressar la mateixa relació de dèbit/crèdit en múltiples formes sintàcticament diferents. Un agent de Beancount hauria d'utilitzar l'agrupament semàntic sobre les finalitzacions d'assentaments mostrejades —i no la variància bruta a nivell de tokens— per detectar quan està al·lucinant un nom de compte o un import.
El fracàs del calibratge de la confiança verbalitzada és un avís directe per a qualsevol interfície d'usuari que mostri "quina confiança té l'IA?" a l'usuari: no us fieu del número que produeix el model. Utilitzeu un calibrador extern o un mètode basat en la consistència, o no el mostreu en absolut.
Què llegir a continuació
- Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — el mètode més rigorós que surt d'aquest marc d'enquesta; val la pena llegir-lo sencer en lloc de fer-ho a través del resum de l'enquesta.
- Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — el mètode canònic basat en la consistència; essencial d'entendre abans de desplegar qualsevol senyal de confiança de caixa negra.
- Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP a ACL 2024 (arXiv:2405.02917) — l'auditoria empírica més exhaustiva de com es trenca la confiança verbalitzada en diferents models i tasques.
