Перейти к контенту

Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим

· 7 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Давление на автономных агентов с целью сделать их одновременно дешевыми и надежными тянет в разные стороны: флагманские модели надежны, но дороги, а малые модели дешевы, но склонны к ошибкам. Статья Пятрашина и соавт. ReDAct (arXiv:2604.07036) предлагает срединный путь — запускать малую модель по умолчанию и делегировать задачу большой модели только тогда, когда малая модель не уверена в результате. Я читаю её, потому что то же самое противоречие характерно для любого продакшн-агента записи данных в Beancount: вы хотите, чтобы система дешево справлялась с рутинной категоризацией и передавала неочевидные случаи человеку или более мощной модели, прежде чем они исказят реестр.

О статье

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (Reason-Defer-Act) базируется на парадигме промптинга ReAct и вводит двухмодельную архитектуру агента. Малая дешевая модель — Qwen3-80B, Llama3.3-70B или Llama4-Maverick — по умолчанию обрабатывает каждый шаг. На каждом этапе она генерирует цепочку рассуждений, а затем — действие. Система измеряет неопределенность на уровне токенов только на этапе генерации действия и сравнивает её с откалиброванным порогом. Если неопределенность превышает этот порог, шаг перезапускается большой дорогой моделью (GPT-5.2, Qwen3-235B или Qwen3-480B); в противном случае выполняется действие малой модели.

Меры неопределенности основаны на теории информации и требуют только логарифмических вероятностей (log-probs) на уровне токенов: вероятность последовательности (суммарная отрицательная логарифмическая вероятность), перплексия (нормализованная по длине) и средняя энтропия токенов (средняя энтропия по позициям токенов). Порог калибруется на отложенной выборке прогонов малой модели путем выбора значения, которое обеспечивает целевое количество вызовов большой модели на эпизод K.

Ключевые идеи

  • Измеряйте неопределенность на этапе действия, а не рассуждения. Дополнительный эксперимент на 2411 шагах ALFWorld показал, что неопределенность на уровне рассуждений плохо разграничивает правильные и неправильные шаги; перплексия на уровне действий имеет заметно более высокие показатели ROC-AUC и PRR как предиктор правильности.
  • Делегирование по PPL с Qwen3-80B + GPT-5.2 достигает 80.8% ± 1.1% на ALFWorld, превосходя результат одной GPT-5.2 (78.3% ± 1.9%), при стоимости $16.25 против $45.21 — экономия составляет примерно 64%.
  • На практике делегируется около 15% шагов, чтобы соответствовать калибровочной цели примерно в 10%; разрыв возникает из-за того, что неудачные (более короткие) траектории вносят непропорционально большой вклад в бюджет делегирования.
  • Случайное делегирование с той же частотой дает 77.0% — это все равно лучше, чем использование только малой модели (68.3%), но хуже, чем делегирование под руководством UQ (оценки неопределенности). Сигнал неопределенности действительно важен, а не просто сам факт более частого обращения к большой модели.
  • MiniGrid показывает меньший потенциал роста. Qwen3-80B + GPT-5.2 с делегированием по PPL достигает 95.0% против 99.0% у одной GPT-5.2. Узкий словарный запас задач создает жесткий потолок для подхода с делегированием, когда малая модель структурно не подходит для задачи.
  • Распределение делегирования зависит от задачи. В ALFWorld больше задач делегируется на поздних этапах (длинная история промптов), тогда как MiniGrid демонстрирует бимодальный паттерн, связанный с начальной позицией агента. Это означает, что фиксированная калибровка порога лучше обобщается внутри семейства задач, чем между ними.

Что подтверждается, а что — нет

Основной эмпирический вывод заслуживает доверия: перплексия строки действия является разумным прокси-показателем того, пойдет ли конкретный шаг не так. Декомпозиция рассуждение/действие в ReAct естественным образом предоставляет удобную точку для прикрепления сигнала неопределенности, а вспомогательный эксперимент по прогнозированию правильности дает подлинное механистическое обоснование выбора дизайна.

В чем я менее уверен: в результате «превосходит одну большую модель» на ALFWorld. Значения 80.8% ± 1.1% и 78.3% ± 1.9% пересекаются в пределах одного стандартного отклонения. Авторы объясняют это взаимодополняющими сильными сторонами — малая модель справляется с рутинными шагами без периодического неоправданного риска, свойственного большой модели, — но нет пошагового абляционного исследования для проверки этой гипотезы. Это вполне может быть статистическим шумом.

Выбор бенчмарков также ограничен. ALFWorld и MiniGrid — это текстовые симуляции домашнего хозяйства и навигация в сеточном мире; узкие среды, в которых не используются вызовы инструментов, выполнение кода или поиск по нескольким документам. Остается открытым вопрос, сохранится ли эффективность делегирования с калибровкой по неопределенности в таких более богатых условиях (актуальных для Beancount). А выбор GPT-5.2 в качестве большой модели затрудняет воспроизведение данных о стоимости.

Процедура калибровки содержит неучтенную цикличность: порог выбирается на том же распределении, на котором он калибровался, без отложенной валидации. Авторы признают сдвиг распределения между калибровкой (прогоны малой модели) и оценкой (гибридные прогоны), но оставляют изучение устойчивости порога для будущих работ.

Почему это важно для ИИ в финансах

Агенты записи в Beancount сталкиваются ровно с тем же вопросом делегирования при каждой транзакции. Обычная покупка продуктов требует категоризации; необычный многоэтапный валютный своп с частично совпадающим примечанием (memo) требует участия человека. Текущая практика — это либо полная автоматизация (рискованно), либо полный ручной обзор (дорого). Фреймворк ReDAct предлагает практически применимый компромисс: запускать дешевую модель и эскалировать задачу, когда перплексия предлагаемой записи в журнале превышает откалиброванный порог.

Финансовый контекст добавляет два соображения, которые не рассматриваются в статье. Во-первых, делегирование здесь часто должно означать остановку и запрос пользователя, а не вызов более крупной LLM — стандартом корректности реестра является намерение пользователя, а не оценка в бенчмарке. Во-вторых, необратимость зафиксированной записи в Beancount выше, чем у неправильно положенного предмета в ALFWorld. Целевой показатель калибровки K, вероятно, должен быть настроен консервативно в сторону более низкой точности на малой модели перед делегированием, а не наоборот.

Сигнал о снижении затрат на 64% стоит воспринимать серьезно даже с этими оговорками. Если агент Beancount обрабатывает транзакции за месяц, и только 15% решений по категоризации требуют дорогой модели, экономика использования способного агента записи выглядит гораздо привлекательнее.

Что почитать дальше

  • KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — использует конформное прогнозирование для калибровки гарантии покрытия того, когда нужно просить о помощи. ReDAct не сравнивается с ним; понимание компромисса между конформными гарантиями и калибровкой порога важно перед выбором подхода для продакшн-системы. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. updated, NAACL 2024) — систематическая таксономия вербализованной уверенности, методов на основе сэмплирования и апостериорной калибровки; теоретическая база для решения вопроса о том, является ли перплексия правильным прокси-показателем неопределенности или калиброванное масштабирование логитов сработает лучше. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — применяет структурно схожий порог неопределенности к решению о вызове инструмента (вызвать инструмент или положиться на знания модели), сокращая количество вызовов инструментов более чем на 50%; прямое дополнение к ReDAct в аспекте использования инструментов агентами. [https://uala-agent.github.io/]