Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим
Давление на автономных агентов с целью сделать их одновременно дешевыми и надежными тянет в разные стороны: флагманские модели надежны, но дороги, а малые модели дешевы, но склонны к ошибкам. Статья Пятрашина и соавт. ReDAct (arXiv:2604.07036) предлагает срединный путь — запускать малую модель по умолчанию и делегировать задачу большой модели только тогда, когда малая модель не уверена в результате. Я читаю её, потому что то же самое противоречие характерно для любого продакшн-агента записи данных в Beancount: вы хотите, чтобы система дешево справлялась с рутинной категоризацией и передавала неочевидные случаи человеку или более мощной модели, прежде чем они исказят реестр.
О статье
ReDAct (Reason-Defer-Act) базируется на парадигме промптинга ReAct и вводит двухмодельную архитектуру агента. Малая дешевая модель — Qwen3-80B, Llama3.3-70B или Llama4-Maverick — по умолчанию обрабатывает каждый шаг. На каждом этапе она генерирует цепочку рассуждений, а затем — действие. Система измеряет неопределенность на уровне токенов только на этапе генерации действия и сравнивает её с откалиброванным порогом. Если неопределенность превышает этот порог, шаг перезапускается большой дорогой моделью (GPT-5.2, Qwen3-235B или Qwen3-480B); в противном случае выполняется действие малой модели.
Меры неопределенности основаны на теории информации и требуют только логарифмических вероятностей (log-probs) на уровне токенов: вероятность последовательности (суммарная отрицательная логарифмическая вероятность), перплексия (нормализованная по длине) и средняя энтропия токенов (средняя энтропия по позициям токенов). Порог калибруется на отложенной выборке прогонов малой модели путем выбора значения, которое обеспечивает целевое количество вызовов большой модели на эпизод K.
Ключевые идеи
- Измеряйте неопределенность на этапе действия, а не рассуждения. Дополнительный эксперимент на 2411 шагах ALFWorld показал, что неопределенность на уровне рассуждений плохо разграничивает правильные и неправильные шаги; перплексия на уровне действий имеет заметно более высокие показатели ROC-AUC и PRR как предиктор правильности.
- Делегирование по PPL с Qwen3-80B + GPT-5.2 достигает 80.8% ± 1.1% на ALFWorld, превосходя результат одной GPT-5.2 (78.3% ± 1.9%), при стоимости $16.25 против $45.21 — экономия составляет примерно 64%.
- На практике делегируется около 15% шагов, чтобы соответствовать калибровочной цели примерно в 10%; разрыв возникает из-за того, что неудачные (более короткие) траектории вносят непропорционально большой вклад в бюджет делегирования.
- Случайное делегирование с той же частотой дает 77.0% — это все равно лучше, чем использование только малой модели (68.3%), но хуже, чем делегирование под руководством UQ (оценки неопределенности). Сигнал неопределенности действительно важен, а не просто сам факт более частого обращения к большой модели.
- MiniGrid показывает меньший потенциал роста. Qwen3-80B + GPT-5.2 с делегированием по PPL достигает 95.0% против 99.0% у одной GPT-5.2. Узкий словарный запас задач создает жесткий потолок для подхода с делегированием, когда малая модель структурно не подходит для задачи.
- Распределение делегирования зависит от задачи. В ALFWorld больше задач делегируется на поздних этапах (длинная история промптов), тогда как MiniGrid демонстрирует бимодальный паттерн, связанный с начальной позицией агента. Это означает, что фиксированная калибровка порога лучше обобщается внутри семейства задач, чем между ними.
Что подтверждается, а что — нет
Основной эмпирический вывод заслуживает доверия: перплексия строки действия является разумным прокси-показателем того, пойдет ли конкретный шаг не так. Декомпозиция рассуждение/действие в ReAct естественным образом предоставляет удобную точку для прикрепления сигнала неопределенности, а вспомогательный эксперимент по прогнозированию правильности дает подлинное механистическое обоснование выбора дизайна.
В чем я менее уверен: в результате «превосходит одну большую модель» на ALFWorld. Значения 80.8% ± 1.1% и 78.3% ± 1.9% пересекаются в пределах одного стандартного отклонения. Авторы объясняют это взаимодополняющими сильными сторонами — малая модель справляется с рутинными шагами без периодического неоправданного риска, свойственного большой модели, — но нет пошагового абляционного исследования для проверки этой гипотезы. Это вполне может быть статистическим шумом.
Выбор бенчмарков также ограничен. ALFWorld и MiniGrid — это текстовые симуляции домашнего хозяйства и навигация в сеточном мире; узкие среды, в которых не используются вызовы инструментов, выполнение кода или поиск по нескольким документам. Остается открытым вопрос, сохранится ли эффективность делегирования с калибровкой по неопределенности в таких более богатых условиях (актуальных для Beancount). А выбор GPT-5.2 в качестве большой модели затрудняет воспроизведение данных о стоимости.
Процедура калибровки содержит неучтенную цикличность: порог выбирается на том же распределении, на котором он калибровался, без отложенной валидации. Авторы признают сдвиг распределения между калибровкой (прогоны малой модели) и оценкой (гибридные прогоны), но оставляют изучение устойчивости порога для будущих работ.