Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования
На прошлой неделе я рассказывал о ReDAct, который перенаправляет решения агента на дорогую резервную модель, когда неопределенность дешевой модели превышает откалиброванный порог. В той статье много общих слов о «неопределенности» — стоит сделать паузу, чтобы понять, что науке на самом деле известно об ее измерении и калибровке. Работа Генга и соавторов «A Survey of Confidence Estimation and Calibration in Large Language Models» (NAACL 2024) — лучшее место для начала: систематическая таксономия того, что работает, что нет и что еще никто не измерял.
О статье
Генг, Цай, Ван, Кёппль, Наков и Гуревич исследуют новую литературу по оценке и калибровке уверенности LLM в задачах от тестов с вариантами ответов до генерации открытых текстов и машинного перевода. Основная проблема: LLM могут быть как высокоточными, так и совершенно ненадежными способами, которые трудно отличить извне. Обзор организует пространство решений в две основные ветви: методы «белого ящика», использующие доступ к внутренним состояниям модели, и методы «черного ящика», рассматривающие модель как непрозрачную. Внутри каждой ветви дополнительно различают оценку уверенности и ее апостериорную калибровку.
Статья была опубликована на NAACL 2024 (страницы 6577–6595), пересмотрена в марте 2024 года на основе версии от ноября 2023 года командой из ТУ Дармштадта, MBZUAI и Университета ИИ имени Мухаммеда бен Заида.