Перейти до основного вмісту

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

· 7 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Тиск на автономних агентів з метою зробити їх одночасно дешевими та надійними тягне в протилежних напрямках: передові моделі надійні, але дорогі, а малі моделі дешеві, але схильні до помилок. Стаття Пятрашина та ін. ReDAct (arXiv:2604.07036) пропонує середній шлях — за замовчуванням запускати малу модель і передавати завдання великій моделі лише тоді, коли мала модель не впевнена. Я читаю її, тому що така ж напруга визначає кожного агента зворотного запису Beancount у продакшені: ви хочете, щоб система дешево обробляла рутинну категоризацію і передавала неочевидні випадки людині, перш ніж вони зіпсують гроссбух.

Про статтю

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (Reason-Defer-Act) базується на парадигмі промптингу ReAct та представляє двомодельну архітектуру агента. Мала дешева модель — Qwen3-80B, Llama3.3-70B або Llama4-Maverick — за замовчуванням обробляє кожен крок. На кожному кроці вона генерує хід міркувань, а потім — дію. Система вимірює невизначеність на рівні токенів лише на етапі генерації дії та порівнює її з відкаліброваним порогом. Якщо невизначеність перевищує цей поріг, крок перезапускається великою дорогою моделлю (GPT-5.2, Qwen3-235B або Qwen3-480B); в іншому випадку виконується дія малої моделі.

Показники невизначеності є теоретико-інформаційними і потребують лише логарифмічних ймовірностей на рівні токенів: ймовірність послідовності (сума негативних лог-ймовірностей), перплексія (нормована за довжиною) та середня ентропія токенів (середня ентропія на позиціях токенів). Поріг калібрується на відкладеному наборі прогонів малої моделі шляхом вибору значення, яке дає цільову кількість викликів великої моделі на епізод K.

Ключові ідеї

  • Вимірювання невизначеності на етапі дії, а не на етапі міркування. Допоміжний експеримент на 2411 кроках ALFWorld показав, що невизначеність на рівні міркувань має слабку роздільну здатність між правильними та неправильними кроками; перплексія на рівні дії має помітно вищі ROC-AUC та PRR як предиктор правильності.
  • Передавання завдань на основі PPL з Qwen3-80B + GPT-5.2 досягає 80.8% ± 1.1% на ALFWorld, що перевищує показник лише GPT-5.2 (78.3% ± 1.9%), коштуючи при цьому $16.25 проти $45.21 — приблизно на 64% дешевше.
  • ~15% кроків передаються великій моделі на практиці, щоб відповідати калібрувальній цілі близько 10%; розрив виникає тому, що невдалі (коротші) траєкторії вносять диспропорційний внесок у бюджет передавання.
  • Випадкове передавання з тією ж частотою дає результат 77.0% — все ще краще, ніж лише мала модель (68.3%), але гірше, ніж передавання під контролем оцінки невизначеності (UQ). Сигнал невизначеності справді має значення, а не просто факт частішого виклику великої моделі.
  • MiniGrid демонструє менший потенціал для зростання. Qwen3-80B + GPT-5.2 з передаванням за PPL досягає 95.0% проти 99.0% для однієї GPT-5.2. Менший словник завдань створює жорстку стелю для підходу з передаванням, коли мала модель структурно неадекватна.
  • Розподіл передавання завдань залежить від задачі. ALFWorld більше передає завдання на пізніх кроках (довша історія промптів), тоді як MiniGrid показує бімодальний паттерн, пов'язаний з початковим положенням агента. Це означає, що фіксоване калібрування порогу краще узагальнюється в межах однієї родини завдань, ніж між різними родинами.

Що підтверджується, а що ні

Основний емпіричний висновок заслуговує на довіру: перплексія рядка дії є розумним проксі-показником того, чи збирається даний крок піти не так. Декомпозиція міркування/дії в ReAct природним чином створює зручну точку для прикріплення сигналу невизначеності, а допоміжний експеримент з передбачення правильності дає справжнє механістичне обґрунтування вибору дизайну.

У чому я менш впевнений: у результаті "перевершує одну лише велику модель" на ALFWorld. Показники 80.8% ± 1.1% та 78.3% ± 1.9% перекриваються в межах одного стандартного відхилення. Автори пояснюють це взаємодоповнюючими силами — мала модель справляється з рутинними кроками без випадкового ризику великої моделі — але немає абляції по кроках, щоб підтвердити цю версію. Це цілком може бути просто шумом.

Вибір бенчмарків також є обмеженим. ALFWorld та MiniGrid — це текстові симуляції домашнього господарства та навігація в сітковому світі — вузькі середовища, які не задіюють виклик інструментів, виконання коду або пошук у багатьох документах. Чи втримається передавання з калібруванням невизначеності в таких багатших умовах (актуальних для Beancount), залишається відкритим питанням. А вибір GPT-5.2 як великої моделі ускладнює відтворення показників вартості.

Процедура калібрування має невирішену циклічність: поріг вибирається на тому ж розподілі, на якому він калібрувався, без валідації на відкладених даних. Автори визнають зсув розподілу між калібруванням (прогони малої моделі) та оцінкою (гібридні прогони), але залишають дослідження стійкості порогу для майбутніх робіт.

Чому це важливо для фінансового ШІ

Агенти зворотного запису Beancount стикаються з точно таким же питанням передавання завдання при кожній транзакції. Рутинна покупка в продуктовому магазині потребує категоризації; незвичний багатоетапний валютний своп із частково збіжним описом потребує втручання людини. Поточна практика — це або повна автоматизація (ризиковано), або повна перевірка людиною (дорого). Фреймворк ReDAct пропонує реальний середній шлях: запускати дешеву модель і ескалювати завдання, коли перплексія щодо запропонованого запису в журналі перевищує відкалібрований поріг.

Контекст фінансів додає два міркування, які не розглядаються в статті. По-перше, передавання тут часто має означати паузу та запит до користувача, а не виклик більшої LLM — стандартом правильності гроссбуха є намір користувача, а не оцінка в бенчмарку. По-друге, незворотність внесеного запису Beancount вища, ніж неправильно розміщеного об'єкта в ALFWorld. Цільовий показник калібрування K, ймовірно, має бути налаштований консервативно в бік нижчої точності малої моделі перед передаванням, а не навпаки.

Сигнал про зниження вартості на 64% варто сприймати серйозно навіть із цими застереженнями. Якщо агент Beancount обробляє транзакції за місяць і лише 15% рішень щодо категоризації потребують дорогої моделі, економіка використання здатного агента зворотного запису виглядає набагато привабливіше.

Що почитати далі

  • KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — використовує конформне передбачення для калібрування гарантії покриття того, коли просити про допомогу. ReDAct не порівнює себе з ним; розуміння компромісу між конформними гарантіями та калібруванням порогу є важливим перед вибором підходу для продакшену. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. updated, NAACL 2024) — систематична таксономія методів вербалізованої впевненості, методів на основі вибірки та посткалібрування; теоретична база для вирішення того, чи є перплексія правильним проксі-показником невизначеності, чи каліброване масштабування логітів спрацює краще. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — застосовує структурно схожий поріг невизначеності до рішення про виклик інструменту (викликати інструмент чи покладатися на знання моделі), скорочуючи виклики інструментів більш ніж на 50%; пряме доповнення до ReDAct для осі використання інструментів у невизначеності агента. [https://uala-agent.github.io/]