Prejsť na hlavný obsah

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Tlak na autonómnych agentov, aby boli lacní a zároveň spoľahliví, pôsobí opačnými smermi: špičkové modely sú spoľahlivé, ale drahé, malé modely sú lacné, ale náchylné na chyby. Článok ReDAct od Piatrashyna a kol. (arXiv:2604.07036) navrhuje strednú cestu — predvolene spúšťať malý model a na veľký model sa obrátiť len vtedy, keď si ten malý nie je istý. Čítam ho preto, lebo rovnaké napätie definuje každého produkčného agenta pre spätný zápis do Beancountu: chcete, aby systém lacno zvládal rutinnú kategorizáciu a eskaloval nejasné prípady skôr, než poškodia účtovnú knihu.

O článku

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct (Reason-Defer-Act) stavia na paradigme promptovania ReAct a zavádza dvojmodelovú architektúru agentov. Malý lacný model — Qwen3-80B, Llama3.3-70B alebo Llama4-Maverick — predvolene spracováva každý krok. V každom kroku vygeneruje stopu uvažovania a následne vygeneruje akciu. Systém meria neistotu na úrovni tokenov iba pri kroku generovania akcie a porovnáva ju s kalibrovaným prahom. Ak neistota tento prah prekročí, krok znovu vykoná veľký drahý model (GPT-5.2, Qwen3-235B alebo Qwen3-480B); v opačnom prípade sa vykoná akcia malého modelu.

Miery neistoty sú informačno-teoretické a vyžadujú len log-pravdepodobnosti na úrovni tokenov: pravdepodobnosť sekvencie (sumárny negatívny log-prob), perplexita (normalizovaná dĺžkou) a priemerná entropia tokenov (priemerná entropia naprieč pozíciami tokenov). Prah sa kalibruje z vyčlenenej sady rolloutov malého modelu výberom hodnoty, ktorá vyprodukuje cieľový počet volaní veľkého modelu na epizódu K.

Kľúčové myšlienky

  • Merať neistotu v kroku akcie, nie v kroku uvažovania. Pomocný experiment na 2 411 krokoch ALFWorld zistil, že neistota na úrovni uvažovania má slabú rozlišovaciu schopnosť medzi správnymi a nesprávnymi krokmi; perplexita na úrovni akcie má merateľne vyššie ROC-AUC a PRR ako prediktor správnosti.
  • Odkladanie na základe PPL s Qwen3-80B + GPT-5.2 dosahuje na ALFWorld 80,8 % ± 1,1 %, čím prekonáva samotný GPT-5.2 s 78,3 % ± 1,9 %, pričom stojí 16,25 USD oproti 45,21 USD — o približne 64 % menej.
  • V praxi sa odkladá ~15 % krokov, aby sa dosiahol kalibračný cieľ zhruba 10 %; rozdiel vzniká preto, lebo neúspešné (kratšie) trajektórie neúmerne prispievajú k rozpočtu na odkladanie.
  • Náhodné odkladanie pri rovnakej miere dosahuje skóre 77,0 % — stále lepšie ako len malý model (68,3 %), ale horšie ako odkladanie riadené kvantifikáciou neistoty (UQ). Signál neistoty skutočne záleží, nie len samotný fakt častejšieho volania veľkého modelu.
  • MiniGrid ukazuje menej priestoru na zlepšenie. Qwen3-80B + GPT-5.2 s odkladaním PPL dosahuje 95,0 % oproti 99,0 % pre samotný GPT-5.2. Menšia slovná zásoba úloh vytvára tvrdší strop pre prístup s odkladaním, keď je malý model štrukturálne neadekvátny.
  • Distribúcia odkladania závisí od úlohy. ALFWorld odkladá viac v neskorších krokoch (dlhšia história promptu), zatiaľ čo MiniGrid vykazuje bimodálny vzorec spojený s počiatočnou pozíciou agenta. To znamená, že fixná kalibrácia prahu sa lepšie zovšeobecňuje v rámci rodiny úloh než naprieč rôznymi rodinami.

Čo sedí — a čo nie

Základné empirické zistenie je vierohodné: perplexita nad reťazcom akcie je rozumným ukazovateľom toho, či sa daný krok pokazí. Dekompozícia uvažovanie/konanie v ReAct prirodzene poskytuje čistý bod na pripojenie signálu neistoty a pomocný experiment predikcie správnosti poskytuje skutočné mechanistické odôvodnenie pre túto voľbu dizajnu.

Čím som si menej istý: výsledkom na ALFWorld, kde „prekonáva samotný veľký model“. 80,8 % ± 1,1 % oproti 78,3 % ± 1,9 % sa prekrýva v rámci jednej smerodajnej odchýlky. Autori to pripisujú komplementárnym silným stránkam — malý model zvláda rutinné kroky bez občasného riskovania veľkého modelu — ale neexistuje žiadna ablácia po jednotlivých krokoch, ktorá by tento príbeh overila. Môže to byť pokojne len šum.

Výber benchmarkov je tiež obmedzujúci. ALFWorld a MiniGrid sú textové simulácie domácnosti a navigácia v mriežkovom svete — úzke prostredia, ktoré nevyužívajú volanie nástrojov, vykonávanie kódu ani vyhľadávanie vo viacerých dokumentoch. Či odkladanie kalibrované podľa neistoty funguje aj v týchto bohatších nastaveniach (nastaveniach relevantných pre Beancount), zostáva nezodpovedané. A voľba GPT-5.2 ako veľkého modelu sťažuje reprodukciu nákladov.

Kalibračný postup má neriešenú cyklickosť: prah sa vyberá na rovnakej distribúcii, na ktorej bol kalibrovaný, bez vyčlenenej validácie. Autori priznávajú posun distribúcie medzi kalibráciou (rollouty malého modelu) a vyhodnotením (hybridné rollouty), ale robustnosť prahu nechávajú na budúcu prácu.

Prečo je to dôležité pre finančnú AI

Agenti Beancount pre spätný zápis čelia presne tej istej otázke odkladania pri každej transakcii. Bežný nákup potravín potrebuje kategorizáciu; neobvyklý viacstranný swap v cudzej mene s čiastočne zhodujúcim sa popisom potrebuje človeka. Súčasná prax je buď plná automatizácia (riziková), alebo plná ľudská kontrola (drahá). Rámec ReDAct naznačuje realizovateľnú strednú cestu: spustiť lacný model a eskalovať, keď perplexita nad kandidátom na zápis do denníka prekročí kalibrovaný prah.

Finančný kontext pridáva dve úvahy, ktorými sa článok nezaoberá. Po prvé, odkladanie by tu malo často znamenať zastavenie a opýtanie sa používateľa, nie volanie väčšieho LLM — štandardom správnosti účtovnej knihy je zámer používateľa, nie skóre v benchmarku. Po druhé, nezvratnosť potvrdeného zápisu v Beancounte je vyššia ako pri nesprávne umiestnenom objekte v ALFWorld. Kalibračný cieľ K by mal byť pravdepodobne ladený konzervatívne smerom k nižšej precíznosti malého modelu pred odložením, nie naopak.

Signál o 64 % znížení nákladov stojí za vážne zváženie aj s týmito výhradami. Ak agent Beancount spracuje mesačné transakcie a len 15 % rozhodnutí o kategorizácii potrebuje drahý model, ekonomika prevádzky schopného agenta pre spätný zápis vyzerá oveľa lepšie.

Čo si prečítať ďalej

  • KnowNo (Ren et al., 2023, CoRL): „Robots that ask for help: uncertainty alignment for large language model planners“ — využíva konformnú predikciu na kalibráciu garancie pokrytia toho, kedy požiadať o pomoc. ReDAct sa s ním neporovnáva; pochopenie kompromisu medzi konformnými garanciami a kalibráciou prahu je dôležité pred výberom produkčného prístupu. [arXiv:2307.01928]
  • A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. aktualizované, NAACL 2024) — systematická taxonómia verbalizovanej dôvery, metód založených na samplovaní a post-hoc kalibrácii; teoretické pozadie pre rozhodnutie, či je perplexita správnym zástupcom neistoty alebo či by lepšie fungovalo kalibrované škálovanie logitov. [arXiv:2311.08298]
  • UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — aplikuje štrukturálne podobný prah neistoty na rozhodnutie o vyvolaní nástroja (volať nástroj vs. spoliehať sa na znalosti modelu), čím znižuje volania nástrojov o viac ako 50 %; priamy doplnok k ReDAct pre os neistoty agenta pri používaní nástrojov. [https://uala-agent.github.io/]