Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват
Миналата седмица разгледах ReDAct, който насочва решенията на агента към скъп резервен модел, когато несигурността на евтиния модел надвиши калибриран праг. Тази статия доста неясно споменава "несигурност" — струва си да спрем и да разберем какво всъщност знае областта за нейното измерване и калибриране. "A Survey of Confidence Estimation and Calibration in Large Language Models" на Geng и др. (NAACL 2024) е правилното място за начало: систематична таксономия на това какво работи, какво не и какво никой още не е измерил.
Статията
Генг, Кай, Уанг, Кьопл, Наков и Гуревич правят обзор на зараждащата се литература за оценка на доверието и калибрирането на LLM в широк спектър от задачи — от въпроси с избор на отговор до генериране със свободен край и машинен превод. Основният проблем: LLM могат да бъдат както много точни, така и напълно ненадеждни по начини, които са трудни за разграничаване отвън. Обзорът организира пространството на решения в два основни клона — методи "бяла кутия", които използват достъп до вътрешните състояния на модела, и методи "черна кутия", които третират модела като непрозрачен — и във всеки от тях допълнително разграничава оценката на доверието от неговото калибриране post hoc.
Статията е публикувана в NAACL 2024 (страници 6577–6595), преработена през март 2024 г. от подадена през ноември 2023 г. работа от екип, обхващащ TU Darmstadt, MBZUAI и Университета за ИИ "Мохамед бин Зайед".
Ключови идеи
-
Доверие чрез "бяла кутия" чрез логити: Най-простият подход използва вероятности на ниво токен или нормализирана по дължина логаритмична вероятност като сигнал за доверие. Тези методи работят, но се сблъскват с фундаментална неяснота: ниската вероятност на токен може да отразява ниско фактологично доверие или просто необичайна формулировка — моделът може да е несигурен в избора на думи, докато е сигурен в основния факт.
-
Доверие чрез "черна кутия" на базата на последователност (SelfCheckGPT): Manakul и др. (EMNLP 2023) вземат множество проби от допълванията и оценяват тяхната взаимна последователност чрез BERTScore, NLI или n-gram припокриване. Не е необходим достъп до логити. Ключово прозрение: за факти, кои то LLM познава добре, многократните проби се сближават; за халюцинирани факти те се разминават.
-
Семантична ентропия: Farquhar et al. (Nature, 2024) групират семантично еквивалентни отговори преди изчисляване на ентропията. Един LLM може да формулира "Париж" и "френската столица" по различен начин — чистата ентропия на токените третира тези отговори като разминаващи се, докато семантичната ентропия — не. Това е качествена стъпка напред спрямо последователността на ниво токени, която обзорът контекстуализира.
-
Вербализираното доверие е счупено: Когато бъдат помолени да изведат процент на доверие, моделите изпадат в прекомерна увереност. Емпиричната работа (Groot et al., TrustNLP на ACL 2024) установява, че GPT-3, GPT-3.5 и Vicuna показват средна очаквана грешка в калибрирането (ECE), надвишаваща 0,377 за вербализирано доверие, като прогнозите се струпват в диапазона 90–100% независимо от действителната точност. Дори GPT-4 — най-добре калибрираният оценен модел — постига AUROC от едва ~62,7%, когато използва вербализирано доверие за разграничаване на правилни от неправилни отговори, което е м алко над случайността.
-
Техниките за калибриране варират според задачата: За класификация контекстуалното калибриране (изваждане на предразсъдъците на класа, оценени с празен подкана "[N/A]") и премахването на пристрастията към позицията (PriDE) се справят с известни систематични отклонения. За генериране Sequence Likelihood Calibration (SLiC) фино настройва моделите върху класирани допълвания. Мащабирането на температурата — най-простата корекция post-hoc — остава конкурентно в много ситуации.
-
Липсва единен бенчмарк: Най-силното структурно наблюдение на обзора: няма единен бенчмарк, обхващащ методите за оценка на доверието в различните задачи и области. Това прави почти невъзможно строгото сравнение на методите. Областта оценява ябълки срещу портокали.
Какво е устойчиво — и какво не е
Таксономията е солидна. Разграничението м ежду "бяла кутия" и "черна кутия" е наистина полезно за проектирането на системи, а разглеждането на методите, базирани на логити, е откровено за техните граници — авторите отбелязват директно, че вероятността на токен смесва фактологичното доверие с лексикалната несигурност. Практиците подценяват това смесване.
Там, където обзорът ме разочарова: той е до голяма степен описателен. Почти няма експериментални бенчмаркове, сравняващи методите директно, и авторите изрично признават това като ограничение. Мога да си тръгна с ясна карта на пространството за проектиране, но без насоки кой метод да използвам за нова задача.
Резултатите за вербализирано доверие — AUROC на GPT-4 от ~62,7% при собственото му заявено доверие — трябва да бъдат канонично знание за всеки, който внедрява LLM в производство. Не са. Хората все още изпращат подкани, които питат "по скала от 1 до 10, колко сте сигурни?" и третират отговора като смислен. Той не е такъв.
Обзорът е оскъден и по въпроса за RLHF калибрирането: дали следтренировъчното обучение с човешка обратна връзка прави моделите по-добре или по-лошо калибрирани? Има доказателства и в двете посоки, а обзорът до голяма степен го избягва.
Защо това е важно за финансовия ИИ
ReDAct залага своята история за безопасност на наличието на калибриран сигнал за несигурност от евтиния модел. Обзорът изяснява колко трудно е това всъщност. Сигналите, базирани на логити, са налични в среди с "бяла кутия", но смесват лексикалната и фактологичната несигурност. Методите, базирани на последователност, работят в среди с "черна кутия", но изискват множество проби на решение — скъпо за високопроизводителен агент за записване в Beancount, обработващ партида от записи на транзакции.
Най-практичното откритие за Bean Labs: семантичната ентропия групира семантично еквивалентни отговори преди оценката на последователността, което е точно това, което е от значение за записите в счетоводната книга, където един модел може да изрази същата вр ъзка дебит/кредит в множество синтактично различни форми. Агентът на Beancount трябва да използва семантично групиране върху проби от попълнени записи в книгата — а не сурова вариация на ниво токен — за да открие кога халюцинира име на сметка или сума.
Провалът на калибрирането при вербализираното доверие е директно предупреждение за всеки потребителски интерфейс, който показва "колко е уверен ИИ?" на потребителя: не вярвайте на числото, което моделът произвежда. Използвайте външен калибратор или метод, базиран на последователност, или изобщо не го показвайте.
Какво да прочетете след това
- Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — най-строгият метод, произтичащ от тази рамка за обзор; заслужава си да се прочете изцяло, а не само резюмето в обзора.
- Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — каноничният метод, базиран на последователност; от съществено значение за разбиране преди внедряване на какъвто и да е сигнал за доверие чрез "черна кутия".
- Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP на ACL 2024 (arXiv:2405.02917) — най-задълбоченият емпиричен одит на това как вербализираното доверие се проваля при различните модели и задачи.
