Ir al contenido principal

Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La semana pasada hablé sobre ReDAct, que redirige las decisiones de los agentes a un modelo de respaldo costoso cuando la incertidumbre de un modelo económico supera un umbral calibrado. Ese artículo divaga mucho sobre la "incertidumbre"; vale la pena detenerse a entender qué es lo que realmente sabe el campo sobre cómo medirla y calibrarla. "A Survey of Confidence Estimation and Calibration in Large Language Models" de Geng et al. (NAACL 2024) es el lugar adecuado para empezar: una taxonomía sistemática de lo que funciona, lo que no y lo que nadie ha medido todavía.

El artículo

2026-07-09-confidence-estimation-calibration-llms-survey

Geng, Cai, Wang, Koeppl, Nakov y Gurevych analizan la literatura emergente sobre la estimación de confianza y la calibración de LLM en tareas que van desde QA de opción múltiple hasta generación abierta y traducción automática. El problema central: los LLM pueden ser a la vez altamente precisos y completamente poco fiables de formas que son difíciles de distinguir desde el exterior. El estudio organiza el espacio de soluciones en dos ramas principales: métodos de caja blanca que explotan el acceso a los estados internos del modelo, y métodos de caja negra que tratan al modelo como opaco; y dentro de cada una, distingue además entre la estimación de la confianza y su calibración post hoc.

El artículo fue publicado en NAACL 2024 (páginas 6577–6595), revisado en marzo de 2024 a partir de un envío de noviembre de 2023 por un equipo que abarca la TU Darmstadt, MBZUAI y la Universidad de IA Mohamed bin Zayed.

Ideas clave

  • Confianza de caja blanca mediante logits: El enfoque más sencillo utiliza probabilidades a nivel de token o la verosimilitud logarítmica normalizada por longitud como señal de confianza. Estos métodos funcionan pero enfrentan una ambigüedad fundamental: una probabilidad de token baja puede reflejar una baja confianza fáctica o simplemente una redacción inusual; el modelo puede estar inseguro sobre la elección de palabras mientras está seguro sobre el hecho subyacente.

  • Confianza de caja negra basada en consistencia (SelfCheckGPT): Manakul et al. (EMNLP 2023) muestrean múltiples completaciones y califican su consistencia mutua utilizando BERTScore, NLI o solapamiento de n-gramas. No se necesita acceso a logits. La idea clave: para hechos que el LLM conoce bien, las muestras repetidas convergen; para hechos alucinados, divergen.

  • Entropía semántica: Farquhar et al. (Nature, 2024) agrupan respuestas semánticamente equivalentes antes de calcular la entropía. Un LLM podría redactar "París" y "la capital francesa" de forma diferente; la entropía de tokens pura trata esto como divergente, la entropía semántica no. Este es un paso cualitativo hacia adelante respecto a la consistencia a nivel de token que el estudio contextualiza.

  • La confianza verbalizada está rota: Cuando se les pide que emitan un porcentaje de confianza, los modelos colapsan en el exceso de confianza. El trabajo empírico (Groot et al., TrustNLP en ACL 2024) encuentra que GPT-3, GPT-3.5 y Vicuna muestran un Error de Calibración Esperado (ECE) promedio superior a 0,377 para la confianza verbalizada, con predicciones agrupadas en el rango del 90–100% independientemente de la precisión real. Incluso GPT-4 —el modelo mejor calibrado evaluado— logra un AUROC de solo ~62,7% cuando se utiliza la confianza verbalizada para discriminar respuestas correctas de incorrectas, apenas por encima del azar.

  • Las técnicas de calibración varían según la tarea: Para la clasificación, la calibración contextual (restando el sesgo de clase previo estimado con un prompt vacío "[N/A]") y la eliminación de sesgo de posición (PriDE) abordan sesgos sistemáticos conocidos. Para la generación, la Calibración de Verosimilitud de Secuencia (SLiC) ajusta los modelos en completaciones clasificadas. El escalado de temperatura (la corrección post-hoc más simple) sigue siendo competitivo en muchos entornos.

  • No existe un benchmark unificado: La observación estructural más condenatoria del estudio: no existe un único benchmark que abarque los métodos de estimación de confianza a través de tareas y dominios. Esto hace que sea casi imposible comparar métodos rigurosamente. El campo está comparando peras con manzanas.

Qué se mantiene y qué no

La taxonomía es sólida. La distinción entre caja blanca y caja negra es genuinamente útil para el diseño de sistemas, y el tratamiento de los métodos basados en logits es honesto sobre sus límites; los autores señalan directamente que la probabilidad de los tokens confunde la confianza fáctica con la incertidumbre léxica. Los profesionales subestiman esta confusión.

Donde el estudio me frustra: es mayoritariamente descriptivo. Casi no hay benchmarks experimentales que comparen métodos frente a frente, y los autores reconocen esto explícitamente como una limitación. Puedo irme con un mapa claro del espacio de diseño pero sin ninguna guía sobre qué método usar para una tarea nueva.

Los resultados de confianza verbalizada —el AUROC de ~62,7% de GPT-4 en su propia confianza declarada— deberían ser conocimiento canónico para cualquiera que despliegue LLM en producción. No lo es. La gente sigue lanzando prompts que preguntan "en una escala del 1 al 10, ¿qué tan seguro estás?" y tratan la respuesta como algo significativo. No lo es.

El estudio también es escaso en la cuestión de la calibración RLHF: ¿el post-entrenamiento con retroalimentación humana hace que los modelos estén mejor o peor calibrados? Hay evidencia en ambos sentidos, y el estudio en gran medida la esquiva.

Por qué esto es importante para la IA financiera

ReDAct basa su argumento de seguridad en tener una señal de incertidumbre calibrada del modelo económico. El estudio deja claro lo difícil que es eso en realidad. Las señales basadas en logits están disponibles en entornos de caja blanca pero confunden la incertidumbre léxica y fáctica. Los métodos basados en consistencia funcionan en entornos de caja negra pero requieren múltiples muestras por decisión, algo costoso para un agente de escritura de Beancount de alto rendimiento que procesa un lote de asientos de transacciones.

El hallazgo más accionable para Bean Labs: la entropía semántica agrupa respuestas semánticamente equivalentes antes de calificar la consistencia, que es precisamente lo que importa para los asientos del libro mayor donde un modelo podría expresar la misma relación de débito/crédito en múltiples formas sintácticamente distintas. Un agente de Beancount debería usar la agrupación semántica sobre completaciones de asientos del libro mayor muestreadas —no la varianza bruta a nivel de token— para detectar cuándo está alucinando un nombre de cuenta o un importe.

El fallo de calibración de la confianza verbalizada es una advertencia directa para cualquier interfaz de usuario que presente al usuario un "¿qué tan confiado está la IA?": no confíe en el número que produce el modelo. Utilice un calibrador externo o un método basado en consistencia en su lugar, o no lo muestre en absoluto.

Qué leer a continuación

  • Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024: el método más riguroso que surge de este marco de estudio; vale la pena leerlo completo en lugar de a través del resumen del estudio.
  • Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896): el método canónico basado en consistencia; esencial de entender antes de desplegar cualquier señal de confianza de caja negra.
  • Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP en ACL 2024 (arXiv:2405.02917): la auditoría empírica más exhaustiva de cómo se desglosa la confianza verbalizada a través de modelos y tareas.