Перейти к контенту

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

На прошлой неделе я рассказывал о ReDAct, который перенаправляет решения агента на дорогую резервную модель, когда неопределенность дешевой модели превышает откалиброванный порог. В той статье много общих слов о «неопределенности» — стоит сделать паузу, чтобы понять, что науке на самом деле известно об ее измерении и калибровке. Работа Генга и соавторов «A Survey of Confidence Estimation and Calibration in Large Language Models» (NAACL 2024) — лучшее место для начала: систематическая таксономия того, что работает, что нет и что еще никто не измерял.

О статье

2026-07-09-confidence-estimation-calibration-llms-survey

Генг, Цай, Ван, Кёппль, Наков и Гуревич исследуют новую литературу по оценке и калибровке уверенности LLM в задачах от тестов с вариантами ответов до генерации открытых текстов и машинного перевода. Основная проблема: LLM могут быть как высокоточными, так и совершенно ненадежными способами, которые трудно отличить извне. Обзор организует пространство решений в две основные ветви: методы «белого ящика», использующие доступ к внутренним состояниям модели, и методы «черного ящика», рассматривающие модель как непрозрачную. Внутри каждой ветви дополнительно различают оценку уверенности и ее апостериорную калибровку.

Статья была опубликована на NAACL 2024 (страницы 6577–6595), пересмотрена в марте 2024 года на основе версии от ноября 2023 года командой из ТУ Дармштадта, MBZUAI и Университета ИИ имени Мухаммеда бен Заида.

Ключевые идеи

  • Уверенность «белого ящика» через логиты: Самый простой подход использует вероятности на уровне токенов или логарифмическое правдоподобие, нормализованное по длине, в качестве сигнала уверенности. Эти методы работают, но сталкиваются с фундаментальной двусмысленностью: низкая вероятность токена может отражать либо низкую уверенность в фактах, либо просто необычную формулировку — модель может сомневаться в выборе слов, будучи уверенной в лежащем в основе факте.

  • Уверенность «черного ящика» на основе согласованности (SelfCheckGPT): Манакул и соавторы (EMNLP 2023) берут несколько выборок ответов и оценивают их взаимную согласованность с помощью BERTScore, NLI или перекрытия n-грамм. Доступ к логитам не требуется. Ключевой вывод: для фактов, которые LLM знает хорошо, повторяющиеся выборки сходятся; для галлюцинированных фактов они расходятся.

  • Семантическая энтропия: Фаркуар и соавторы (Nature, 2024) группируют семантически эквивалентные ответы перед вычислением энтропии. LLM может сформулировать «Париж» и «столица Франции» по-разному — обычная энтропия токенов сочтет их расходящимися, семантическая энтропия — нет. Это качественный шаг вперед по сравнению с согласованностью на уровне токенов, который обзор помещает в контекст.

  • Вербализованная уверенность не работает: Когда модель просят выдать процент уверенности, она впадает в самоуверенность. Эмпирическая работа (Грут и соавторы, TrustNLP на ACL 2024) показывает, что у GPT-3, GPT-3.5 и Vicuna средняя ожидаемая ошибка калибровки (ECE) превышает 0,377 для вербализованной уверенности, при этом прогнозы группируются в диапазоне 90–100% независимо от реальной точности. Даже GPT-4 — наиболее калиброванная из оцененных моделей — достигает AUROC лишь около 62,7% при использовании вербализованной уверенности для различения правильных и неправильных ответов, что едва выше случайного угадывания.

  • Методы калибровки зависят от задачи: Для классификации контекстная калибровка (вычитание априорного смещения классов, оцененного с помощью пустого промпта «[N/A]») и устранение позиционного смещения (PriDE) решают проблему известных систематических искажений. Для генерации калибровка правдоподобия последовательности (SLiC) дообучает модели на ранжированных ответах. Температурное масштабирование — самое простое апостериорное решение — остается конкурентоспособным во многих сценариях.

  • Единого бенчмарка не существует: Самое критическое структурное наблюдение обзора: нет ни одного бенчмарка, охватывающего методы оценки уверенности во всех задачах и доменах. Это делает практически невозможным строгое сравнение методов. Область сравнивает теплое с мягким.

Что подтверждается, а что нет

Таксономия прочна. Различие между «белым ящиком» и «черным ящиком» действительно полезно для проектирования систем, а разбор методов на основе логитов честен в отношении их ограничений — авторы прямо отмечают, что вероятность токена смешивает фактическую уверенность с лексической неопределенностью. Практики часто недооценивают это смешение.

Что в обзоре разочаровывает: он носит в основном описательный характер. Почти нет экспериментальных бенчмарков, сравнивающих методы лицом к лицу, и авторы прямо признают это как ограничение. После прочтения остается четкая карта проектных решений, но нет руководства, какой метод использовать для новой задачи.

Результаты по вербализованной уверенности — AUROC GPT-4 ~62,7% для собственной заявленной уверенности — должны быть базовым знанием для любого, кто внедряет LLM в эксплуатацию. Но это не так. Люди все еще выпускают промпты в духе «оцени свою уверенность по шкале от 1 до 10» и относятся к ответу как к значимому. Это не так.

В обзоре также мало внимания уделено вопросу калибровки через RLHF: делает ли дообучение на отзывах людей модели более или менее калиброванными? Есть свидетельства в обе стороны, и обзор во многом обходит эту тему.

Почему это важно для финансового ИИ

ReDAct строит свою систему безопасности на наличии калиброванного сигнала неопределенности от дешевой модели. Обзор ясно дает понять, насколько это сложно на самом деле. Сигналы на основе логитов доступны в условиях «белого ящика», но смешивают лексическую и фактическую неопределенность. Методы на основе согласованности работают в «черном ящике», но требуют нескольких выборок на одно решение — это дорого для высокопроизводительного агента обратной записи Beancount, обрабатывающего пакет записей транзакций.

Самый полезный вывод для Bean Labs: семантическая энтропия группирует семантически эквивалентные ответы перед оценкой согласованности, что критически важно для записей в реестре, где модель может выразить одни и те же дебетово-кредитные отношения в нескольких синтаксически различных формах. Агент Beancount должен использовать семантическую кластеризацию по выборкам завершенных записей — а не простое отклонение токенов — чтобы обнаружить галлюцинацию в названии счета или сумме.

Провал калибровки вербализованной уверенности — это прямое предупреждение для любого интерфейса, показывающего пользователю «насколько уверен ИИ?»: не доверяйте числу, которое выдает модель. Используйте внешний калибратор или методы на основе согласованности, либо не показывайте это число вовсе.

Что читать дальше

  • Farquhar et al., «Detecting hallucinations in large language models using semantic entropy», Nature, 2024 — самый строгий метод, вытекающий из структуры этого обзора; стоит прочитать полностью, а не в кратком изложении.
  • Manakul et al., «SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models», EMNLP 2023 (arXiv:2303.08896) — канонический метод на основе согласованности; обязателен к изучению перед внедрением любого сигнала уверенности для «черного ящика».
  • Groot et al., «Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models», TrustNLP at ACL 2024 (arXiv:2405.02917) — самый тщательный эмпирический аудит того, как вербализованная уверенность дает сбои в различных моделях и задачах.