Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження
Минулого тижня я розповідав про ReDAct, який спрямовує рішення агента до дорогої резервної моделі, коли невизначеність дешевої моделі перевищує відкалібрований поріг. Ця стаття багато говорить про «невизначеність» — варто зробити паузу, щоб зрозуміти, що насправді відомо галузі про її вимірювання та калібрування. Огляд Генга та ін. «A Survey of Confidence Estimation and Calibration in Large Language Models» (NAACL 2024) — це правильне місце для початку: систематична таксономія того, що працює, що ні, і що ще ніхто не вимірював.
Стаття
Генг, Цай, Ван, Кьоппль, Наков та Гуревич оглядають літературу, що з'являється, щодо оцінки впевненості та калібрування LLM у завданнях, починаючи від QA з вибором варіантів і закінчуючи генерацією відкритого типу та машинним перекладом. Основна проблема: LLM можуть бути як дуже точними, так і абсолютно ненадійними способами, які важко розрізнити ззовні. Огляд організовує простір рішень на дві основні гілки — методи «білої скриньки», які використовують доступ до внутрішніх станів моделі, та методи «чорної скриньки», які розглядають модель як непрозору — і в межах кожної додатково розрізняє оцінку впевненості та її калібрування post hoc.
Стаття була опублікована на NAACL 2024 (сторінки 6577–6595), переглянута в березні 2024 року на основі подання від листопада 2023 року командою з ТУ Дармштадт, MBZUAI та Університету штучного інтелекту імені Мохамеда бін Заїда.
Ключові ідеї
-
Впевненість «білої скриньки» через логіти: Найпростіший підхід використовує ймовірності на рівні токенів або нормалізовану за довжиною логарифмічну правдоподібність як сигнал впевненості. Ці методи працюють, але стикаються з фундаментальною неоднозначністю: низька ймовірність токена може відображати низьку фактичну впевненість або просто незвичне формулювання — модель може бути невпевненою у виборі слів, будучи впевненою в базовому факті.
-
Впевненість «чорної скриньки» на основі узгодженості (SelfCheckGPT): Манакул та ін. (EMNLP 2023) вибирають кілька варіантів завершення та оцінюють їхню взаємну узгодженість за допомогою BERTScore, NLI або перекриття n-грам. Доступ до логітів не потрібен. Ключове спостереження: для фактів, які LLM знає добре, повторні зразки сходяться; для галюцинованих фактів — розходяться.
-
Семантична ентропія: Фаркуар та ін. (Nature, 2024) кластеризують семантично еквівалентні відповіді перед обчисленням ентропії. LLM може сформулювати «Париж» і «столиця Франції» по-різному — сира ентр опія токенів розглядає їх як розбіжні, а семантична ентропія — ні. Це якісний крок вперед порівняно з узгодженістю на рівні токенів, який контекстуалізує огляд.
-
Вербалізована впевненість не працює: Коли моделей просять видати відсоток впевненості, вони впадають у надмірну впевненість. Емпірична робота (Groot et al., TrustNLP на ACL 2024) виявила, що GPT-3, GPT-3.5 і Vicuna демонструють середню очікувану помилку калібрування (ECE), що перевищує 0,377 для вербалізованої впевненості, причому прогнози групуються в діапазоні 90–100% незалежно від фактичної точності. Навіть GPT-4 — найкраще відкалібрована модель серед оцінюваних — досягає AUROC лише ~62,7% при використанні вербалізованої впевненості для розрізнення правильних і неправильних відповідей, що ледь перевищує випадковість.
-
Методи калібрування варіюються залежно від завдання: Для класифікації контекстне калібрування (віднімання апріорного зміщення класів, оціненого за допомогою порожнього промпту «[N/A]») та усунення позиційного зміщення (PriDE) вирішують відомі систематичні упередження. Для генерації Sequence Likelihood Calibration (SLiC) донавчає моделі на ранжованих варіантах завершення. Масштабування температури — найпростіше виправлення post-hoc — залишається конкурентоспроможним у багатьох сценаріях.
-
Єдиного бенчмарку не існує: Найбільш нищівне структурне спостереження огляду: не існує жодного бенчмарку, який охоплював би методи оцінки впевненості в різних завданнях і доменах. Це робить практично неможливим суворе порівняння методів. Галузь порівнює тепле з м'яким.
Що підтверджується, а що ні
Таксономія солідна. Розрізнення «білої скриньки» та «чорної скриньки» є справді корисним для проектування систем, а розгляд методів на основі логітів чесно вказує на їхні обмеження — автори прямо зазначають, що ймовірність токена поєднує фактичну впевненість із лексичною невизначеністю. Практики недооцінюють це поєднання.
Що мене розчаровує в огляді: він переважно описовий. Майже немає експ ериментальних бенчмарків, які б порівнювали методи безпосередньо, і автори прямо визнають це як обмеження. Я можу піти з чіткою картою простору проектування, але без вказівок щодо того, який метод використовувати для нового завдання.
Результати вербалізованої впевненості — AUROC GPT-4 ~62,7% для його власної впевненості — мають бути базовим знанням для кожного, хто впроваджує LLM у виробництво. Але це не так. Люди все ще створюють промпти, які запитують «за шкалою від 1 до 10, наскільки ви впевнені?» і розглядають відповідь як значущу. Вона такою не є.
В огляді також мало уваги приділено питанню калібрування RLHF: чи робить навчання з людським зворотним зв'язком моделі краще чи гірше відкаліброваними? Є докази в обох напрямках, і огляд значною мірою обходить це питання.
Чому це важливо для фінансового ШІ
ReDAct будує свою концепцію безпеки на наявності відкалі брованого сигналу невизначеності від дешевої моделі. Огляд чітко показує, наскільки це важко насправді. Сигнали на основі логітів доступні в сценаріях «білої скриньки», але змішують лексичну та фактичну невизначеність. Методи на основі узгодженості працюють у сценаріях «чорної скриньки», але вимагають кількох зразків для кожного рішення — що дорого для високонавантаженого агента зворотного запису Beancount, який обробляє пакет транзакцій.
Найбільш практичний висновок для Bean Labs: семантична ентропія групує семантично еквівалентні відповіді перед оцінкою узгодженості, що є саме тим, що важливо для записів у реєстрі, де модель може виразити однакові дебетово-кредитні відносини в кількох синтаксично відмінних формах. Агент Beancount повинен використовувати семантичну кластеризацію над вибраними варіантами завершення записів у реєстрі — а не сиру варіативність на рівні токенів — щоб виявити, коли він галюцинує назву рахунку або суму.
Помилка калібрування вербалізованої впевненості є прямим попередженням для будь-якого інтерфейсу користувача, який показує «наскільки впевнений ШІ?»: не довіряйте числу, яке видає модель. Використовуйте зовнішній калібратор або метод на основі узгодженості, або не показуйте це число взагалі.
Що читати далі
- Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — найсуворіший метод, що випливає з цієї структури огляду; варто прочитати повністю, а не лише в резюме огляду.
- Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — канонічний метод на основі узгодженості; важливо зрозуміти його перед впровадженням будь-якого сигналу впевненості «чорної скриньки».
- Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP at ACL 2024 (arXiv:2405.02917) — найретельніший емпіричний аудит того, як вербалізована впевненість виходить з ладу в різних моделях і завданнях.
