CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів
Читаю CRITIC (Gou et al., ICLR 2024), розмірковуючи про те, що відбувається після того, як фінансовий агент припускається помилки. Reflexion підказав нам, що агенти можуть вчитися на невдачах протягом епізодів. CRITIC ставить більш гостре питання: чи може LLM виявити та виправити власні помилки за один прохід генерації — і якщо так, то що їй насправді для цього потрібно?
Стаття
CRITIC предс тавляє фреймворк, у якому мовна модель генерує початковий результат, а потім ітерує через цикл «перевірка-корекція», використовуючи зовнішні інструменти — API пошуку для фактичних тверджень, інтерпретатор Python для коду та арифметики, та класифікатор токсичності для модерації вмісту. Цикл виконується протягом фіксованої кількості ітерацій (стаття повідомляє про ефективні результати приблизно після трьох корекцій), створюючи уточнений результат, який автори оцінюють за допомогою запитань і відповідей у вільній формі (TriviaQA, AmbigNQ, HotpotQA), математичного синтезу програм та зниження токсичності.
Центральне твердження полягає не в тому, що LLM можуть самокорегуватися власноруч. Швидше навпаки: цінність CRITIC полягає саме в заземленні критики у зовнішньому сигналі, який модель не може підробити. Без API пошуку покращення QA зводяться майже до нуля або стають від'ємними. Фреймворк працює, тому що інструмент повідомляє моделі те, чого вона справді не знала, а не тому, що модель стає надійним самоаудитором.
Ключові ідеї
- У застосуванні до ChatGPT, CRITIC забезпечує покращення F1-метрики в середньому на 7,7 у трьох завданнях QA з відкритим доменом та абсолютний приріст у 7,0 відсоткових пунктів у трьох тестах математичного мислення.
- Зниження токсичності є найбільш вражаючим поодиноким результатом: ймовірність токсичності в оцінюваному наборі даних зменшилася на 79,2%.
- Видалення API пошуку призводить до того, що продуктивність QA або виходить на плато, або деградує — внутрішня здатність моделі до самокритики майже марна для фактологічних завдань.
- Цикл швидко сходиться: три раунди корекції дають більшу частину приросту, а подальші ітерації мають спадну віддачу.
- Фреймворк є незалежним від моделі та не потребує донавчання; він працює з API «чорної скриньки», включаючи Text-Davinci-003 та ChatGPT.
- CRITIC перевершує self-consistency (голосування більшістю за кількома зразками) у більшості завдань, що є значущим, оскільки self-consistency не має витрат на використання інструментів на кожному кроці.