Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели
Натискът върху автономните агенти да бъдат едновременно евтини и надеждни ги тегли в противоположни посоки: водещите модели (frontier models) са надеждни, но скъпи, докато малките модели са евтини, но склонни към грешки. Докладът ReDAct на Пятрашин и др. (arXiv:2604.07036) предлага среден път — изпълнение на малък модел по подразбиране и отлагане (defer) към голям модел само когато малкият модел е несигурен. Чета това, защото същото напрежение дефинира всеки агент за автоматично вписване в Beancount: искате системата да обработва рутинното категоризиране евтино и да ескалира неочевидните случаи, преди те да корумпират счетоводната книга (ledger).
Докладът
ReDAct (Reason-Defer-Act) се основава на парадигмата ReAct и въвежда архитектура на агент с два модела. Малък евтин модел — Qwen3-80B, Llama3.3-70B или Llama4-Maverick — обработва всяка стъпка по подразбиране. На всяка стъпка той генерира следа от разсъждения (reasoning trace), след което генерира действие. Системата измерва неопределеността на ниво токен само върху стъпката на генериране на действие и я сравнява с калибриран праг. Ако неопределеността надвиши този праг, стъпката се изпълнява повторно от голям скъп модел (GPT-5.2, Qwen3-235B или Qwen3-480B); в противен случай се изпълнява действието на малкия модел.
Измерванията на неопределеността са информационно-теоретични и изискват само логаритмични вероятности на ниво токен: Вероятност на последователността (сумирана отрицателна логаритмична вероятност), Перплексия (нормализирана по дължина) и Средна ентропия на токените (средна ентропия в позициите на токените). Прагът се калибрира от отделен набор от изпълнения на малкия модел, като се избира стойността, която произвежда целевия брой повиквания на големия модел на епизод K.
Ключови идеи
- Измервайте неопределеността при стъпката на действие, а не при стъпката на разсъждение. Помощен експеримент върху 2411 стъпки в ALFWorld установи, че неопределеността на ниво разсъждение има слаба дискриминативна способност между правилни и неправилни стъпки; перплексията на ниво действие има измеримо по-високи ROC-AUC и PRR като предсказател за коректност.
- Отлагането чрез перплексия (PPL) с Qwen3-80B + GPT-5.2 постига 80.8% ± 1.1% на ALFWorld, надминавайки самостоятелния GPT-5.2 (78.3% ± 1.9%), докато струва $16.25 срещу $45.21 — приблизително 64% по-евтино.
- ~15% от стъпките се отлагат на практика, за да съответстват на калибрационна цел от около 10%; разли ката възниква, защото неуспешните (по-къси) траектории допринасят непропорционално за бюджета за отлагане.
- Случайното отлагане при същата честота постига 77.0% — все още по-добре от използването само на малък модел (68.3%), но по-лошо от отлагането, ръководено от количествено определяне на неопределеността (UQ). Сигналът за неопределеност наистина има значение, а не само фактът на по-честото извикване на големия модел.
- MiniGrid показва по-малко място за подобрение. Qwen3-80B + GPT-5.2 с PPL отлагане достига 95.0% срещу 99.0% само за GPT-5.2. По-малкият речник на задачите създава по-труден таван за подхода с отлагане, когато малкият модел е структурно неадекватен.
- Разпределението на отлагането зависи от задачата. ALFWorld отлага повече в по-късните стъпки (по-дълга история на подканите), докато MiniGrid показва бимодален модел, свързан с първоначалната позиция на агента. Това означава, че калибрирането на фиксиран праг се обобщава по-добре в рамките на едно семейство задачи, отколкото между различни семейства.
Какв о издържа проверката — и какво не
Основната емпирична констатация е достоверна: перплексията върху низа на действието е разумен прокси показател за това дали дадена стъпка е напът да се обърка. Декомпозицията разсъждение/действие в ReAct естествено предоставя чиста точка за прикачване на сигнал за неопределеност, а помощният експеримент за предсказване на коректността дава истинско механистично оправдание за избора на дизайн.
Това, в което съм по-малко убеден: резултатът „надминава големия модел самостоятелно“ в ALFWorld. 80.8% ± 1.1% срещу 78.3% ± 1.9% се припокриват при едно стандартно отклонение. Авторите приписват това на допълващи се силни страни — малкият модел се справя с рутинните стъпки без периодичното поемане на риск от големия модел — но няма аблация стъпка по стъпка, която да потвърди тази теза. Може просто да е статистически шум.
Изборът на бенчмаркове също е ограничаващ. ALFWorld и MiniGrid са текстови симулации на домакинство и навигация в мрежов свят — тесни среди, които не упражняват извикване на инструменти (tool calling), изпълнение на код или извличане на информация от множество документи. Дали отлагането, калибрирано спрямо неопределеността, важи в тези по-богати среди (средите, подходящи за Beancount), остава без отговор. А изборът на GPT-5.2 като голям модел прави цифрите за разходите трудни за възпроизвеждане.
Процедурата по калибриране има неадресирана цикличност: прагът се избира върху същото разпределение, върху което е калибриран, без отделна валидация. Авторите признават изместването на разпределението (distribution shift) между калибрирането (изпълнения на малкия модел) и оценката (хибридни изпълнения), но оставят стабилността на прага за бъдеща работа.
Защо това е важно за финансовия изкуствен интелект
Агентите за автоматично вписване в Beancount са изправени пред абсолютно същия въпрос за отлагане при всяка трансакция. Рутинната покупка на хранителни стоки се нуждае от категоризация; необичаен многокомпонентен валутен суап с частично съвпадащо описание се нуждае от човек. Настоящата практика е или пълна автоматизация (рискована), или пълен преглед от човек (скъп). Рамката на ReDAct предлага постижима средна позиция: изпълнение на евтиния модел и ескалация, когато перплексията върху кандидат-записа в леджъра надвиши калибриран праг.
Финансовият контекст добавя две съображения, които докладът не разглежда. Първо, отлагането тук често трябва да означава пауза и запитване към потребителя, а не извикване на по-голям LLM — стандартът за коректност на леджъра е намерението на потребителя, а не резултат от бенчмарк. Второ, необратимостта на потвърден запис в Beancount е по-висока от неправилно поставен обект в ALFWorld. Целта за калибриране K вероятно трябва да бъде настроена консервативно към по-ниска прецизност на малкия модел преди отлагане, а не обратното.
Сигналът за 64% намаление на разходит е си струва да се вземе на сериозно дори с тези уговорки. Ако агент за Beancount обработва трансакции за един месец и само 15% от решенията за категоризация се нуждаят от скъпия модел, икономиката на управлението на способен агент за автоматично вписване изглежда много по-добре.
Какво да прочетете след това
- KnowNo (Ren et al., 2023, CoRL): „Robots that ask for help: uncertainty alignment for large language model planners“ — използва конформно предсказване (conformal prediction) за калибриране на гаранция за покритие кога да се поиска помощ. ReDAct не се сравнява с него; разбирането на компромиса между конформните гаранции и калибрирането на прага е важно преди избора на производствен подход. [arXiv:2307.01928]
- A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. updated, NAACL 2024) — систематична таксономия на вербализирана увереност, методи, базирани на извадки (sampling-based), и post-hoc методи за калибриране; теоретичната база за р ешаване дали перплексията е правилният прокси за неопределеност или дали калибрираното мащабиране на логитите би се представило по-добре. [arXiv:2311.08298]
- UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — прилага структурно подобен праг на неопределеност към решението за извикване на инструмент (извикване на инструмент срещу разчитане на знанията на модела), намалявайки извикванията на инструменти с над 50%; директното допълнение към ReDAct за оста на използване на инструменти при неопределеност на агента. [https://uala-agent.github.io/]
