Pular para o conteúdo principal

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Na semana passada, abordei o ReDAct, que direciona as decisões de um agente para um modelo de fallback caro quando a incerteza de um modelo barato excede um limite calibrado. Esse artigo faz muitas suposições vagas sobre "incerteza" — vale a pena pausar para entender o que a área realmente sabe sobre como medi-la e calibrá-la. O estudo de Geng et al., "A Survey of Confidence Estimation and Calibration in Large Language Models" (NAACL 2024), é o lugar certo para começar: uma taxonomia sistemática do que funciona, do que não funciona e do que ninguém mediu ainda.

O artigo

2026-07-09-confidence-estimation-calibration-llms-survey

Geng, Cai, Wang, Koeppl, Nakov e Gurevych analisam a literatura emergente sobre estimativa de confiança e calibração de LLMs em tarefas que variam de Q&A de múltipla escolha a geração aberta e tradução automática. O problema central: LLMs podem ser tanto altamente precisos quanto completamente não confiáveis de formas difíceis de distinguir externamente. O levantamento organiza o espaço de soluções em dois ramos principais — métodos white-box que exploram o acesso aos estados internos do modelo, e métodos black-box que tratam o modelo como opaco — e, dentro de cada um, distingue entre estimar a confiança e calibrá-la post hoc.

O artigo foi publicado na NAACL 2024 (páginas 6577–6595), revisado em março de 2024 a partir de uma submissão de novembro de 2023 por uma equipe abrangendo a TU Darmstadt, MBZUAI e a Universidade de IA Mohamed bin Zayed.

Ideias-chave

  • Confiança white-box via logits: A abordagem mais simples utiliza probabilidades ao nível de token ou a verossimilhança logarítmica (log-likelihood) normalizada pelo comprimento como um sinal de confiança. Esses métodos funcionam, mas enfrentam uma ambiguidade fundamental: uma baixa probabilidade de token pode refletir baixa confiança factual ou apenas um fraseado incomum — o modelo pode estar incerto sobre a escolha da palavra enquanto tem certeza sobre o fato subjacente.

  • Confiança black-box baseada em consistência (SelfCheckGPT): Manakul et al. (EMNLP 2023) amostram múltiplas conclusões e pontuam sua consistência mútua usando BERTScore, NLI ou sobreposição de n-gramas. Não é necessário acesso a logits. A percepção principal: para fatos que o LLM conhece bem, amostras repetidas convergem; para fatos alucinados, elas divergem.

  • Entropia semântica: Farquhar et al. (Nature, 2024) agrupam respostas semanticamente equivalentes antes de calcular a entropia. Um LLM pode formular "Paris" e "a capital francesa" de forma diferente — a entropia de tokens bruta trata estas como divergentes, a entropia semântica não. Este é um passo qualitativo à frente da consistência ao nível de token que o levantamento contextualiza.

  • A confiança verbalizada está quebrada: Quando solicitados a fornecer uma porcentagem de confiança, os modelos colapsam em excesso de confiança. O trabalho empírico (Groot et al., TrustNLP na ACL 2024) descobriu que o GPT-3, GPT-3.5 e Vicuna apresentam um Erro de Calibração Esperado (ECE) médio superior a 0,377 para confiança verbalizada, com previsões agrupadas na faixa de 90–100%, independentemente da precisão real. Mesmo o GPT-4 — o modelo melhor calibrado avaliado — atinge um AUROC de apenas ~62,7% ao usar confiança verbalizada para discriminar respostas corretas de incorretas, pouco acima do acaso.

  • Técnicas de calibração variam por tarefa: Para classificação, a calibração contextual (subtraindo o viés de classe prior estimado com um prompt vazio "[N/A]") e a remoção de viés de posição (PriDE) abordam vieses sistemáticos conhecidos. Para geração, a Calibração de Verossimilhança de Sequência (SLiC) ajusta os modelos em conclusões classificadas. O escalonamento de temperatura (temperature scaling) — a correção post-hoc mais simples — continua competitivo em muitos cenários.

  • Não existe um benchmark unificado: A observação estrutural mais contundente do levantamento: não existe um único benchmark que abranja métodos de estimativa de confiança em diferentes tarefas e domínios. Isso torna quase impossível comparar métodos de forma rigorosa. A área está comparando alhos com bugalhos.

O que se sustenta — e o que não se sustenta

A taxonomia é sólida. A distinção entre white-box e black-box é genuinamente útil para o design de sistemas, e o tratamento dos métodos baseados em logits é honesto quanto aos seus limites — os autores observam diretamente que a probabilidade do token confunde a confiança factual com a incerteza lexical. Profissionais da área subestimam essa confusão.

Onde o levantamento me frustra: ele é amplamente descritivo. Quase não há benchmarks experimentais comparando os métodos diretamente, e os autores reconhecem isso explicitamente como uma limitação. Saio com um mapa claro do espaço de design, mas sem orientação sobre qual método usar para uma nova tarefa.

Os resultados de confiança verbalizada — o AUROC de ~62,7% do GPT-4 em sua própria confiança declarada — deveriam ser conhecimento canônico para qualquer pessoa que implante LLMs em produção. Não são. As pessoas ainda enviam prompts que perguntam "em uma escala de 1 a 10, quão confiante você está?" e tratam a resposta como significativa. Não é.

O levantamento também é superficial na questão da calibração via RLHF: o pós-treinamento com feedback humano torna os modelos melhor ou pior calibrados? Há evidências em ambos os sentidos, e o levantamento evita o assunto em grande parte.

Por que isso importa para a IA em finanças

O ReDAct baseia sua estratégia de segurança em ter um sinal de incerteza calibrado do modelo barato. O levantamento deixa claro o quão difícil isso realmente é. Sinais baseados em logit estão disponíveis em ambientes white-box, mas confundem incerteza lexical e factual. Métodos baseados em consistência funcionam em ambientes black-box, mas exigem múltiplas amostras por decisão — o que é caro para um agente de write-back do Beancount de alto rendimento que processa um lote de lançamentos de transações.

A descoberta mais aplicável para o Bean Labs: a entropia semântica agrupa respostas semanticamente equivalentes antes de pontuar a consistência, que é precisamente o que importa para lançamentos contábeis onde um modelo pode expressar a mesma relação de débito/crédito em múltiplas formas sintaticamente distintas. Um agente do Beancount deve usar agrupamento semântico sobre conclusões de lançamentos contábeis amostradas — e não a variância bruta ao nível de token — para detectar quando está alucinando o nome de uma conta ou um valor.

A falha de calibração da confiança verbalizada é um alerta direto para qualquer interface de usuário que apresente "quão confiante está a IA?" ao usuário: não confie no número que o modelo produz. Use um calibrador externo ou um método baseado em consistência, ou simplesmente não apresente essa informação.

O que ler a seguir

  • Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — o método mais rigoroso que surge desta estrutura de levantamento; vale a pena ler na íntegra em vez de apenas pelo resumo do levantamento.
  • Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — o método canônico baseado em consistência; essencial para entender antes de implantar qualquer sinal de confiança black-box.
  • Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP na ACL 2024 (arXiv:2405.02917) — a auditoria empírica mais completa de como a confiança verbalizada falha em diferentes modelos e tarefas.