Prejsť na hlavný obsah

CRITIC: Prečo samooprava LLM vyžaduje spätnú väzbu od externých nástrojov

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Čítanie CRITIC (Gou et al., ICLR 2024) pri uvažovaní o tom, čo sa stane po tom, čo finančný agent urobí chybu. Reflexion nám ukázal, že agenti sa môžu učiť z neúspechov v priebehu epizód. CRITIC kladie ostrejšiu otázku: dokáže LLM zachytiť a opraviť svoje vlastné chyby v rámci jedného prechodu generovania – a ak áno, čo k tomu skutočne potrebuje?

O čom je tento článok

2026-04-26-critic-llm-self-correct-tool-interactive-critiquing

CRITIC uvádza rámec, v ktorom jazykový model generuje počiatočný výstup a potom iteruje cez slučku „overiť a opraviť“ pomocou externých nástrojov – vyhľadávacieho API pre faktické tvrdenia, interpretéra Pythonu pre kód a aritmetiku a klasifikátora toxicity pre moderovanie obsahu. Slučka beží po stanovený počet iterácií (článok uvádza efektívne výsledky pri približne troch opravách), čím vzniká upresnený výstup, ktorý autori vyhodnocujú na odpovedaní na otázky vo voľnom formáte (TriviaQA, AmbigNQ, HotpotQA), matematickej syntéze programov a znižovaní toxicity.

Hlavným tvrdením nie je, že LLM sa dokážu opraviť samy. Je to takmer naopak: hodnota CRITIC pochádza práve z ukotvenia kritiky v externom signále, ktorý model nemôže sfalšovať. Bez vyhľadávacieho API sa zlepšenia v QA zmenšujú takmer na nulu alebo sa zhoršujú. Rámec funguje, pretože nástroj povie modelu niečo, čo model úprimne nevedel, nie preto, že by sa model stal spoľahlivým seba-auditorom.

Kľúčové myšlienky

  • Aplikovaný na ChatGPT, CRITIC dosahuje zlepšenie skóre F1 v priemere o 7,7 bodu v troch úlohách QA s otvorenou doménou a absolútny nárast o 7,0 percentuálnych bodov v troch benchmarkoch matematického uvažovania.
  • Zníženie toxicity je najvýraznejším samostatným výsledkom: 79,2 % zníženie pravdepodobnosti toxicity na hodnotenom súbore údajov.
  • Odstránenie vyhľadávacieho API spôsobuje, že výkon v QA buď stagnuje, alebo klesá – prirodzená schopnosť modelu samokritiky je pre faktické úlohy takmer nepoužiteľná.
  • Slučka konverguje rýchlo: tri kolá opráv zachytia väčšinu prínosov, pričom po nich nasledujú klesajúce výnosy.
  • Rámec je nezávislý od modelu a nevyžaduje žiadne jemné doladenie; funguje na API „čiernej skrinky“ vrátane Text-Davinci-003 aj ChatGPT.
  • CRITIC prekonáva self-consistency (väčšinové hlasovanie nad viacerými vzorkami) vo väčšine úloh, čo je významné, pretože self-consistency nemá žiadne náklady na nástroje v každom kroku.

Čo obstojí — a čo nie

Základný empirický výsledok je solídny: spätná väzba od externých nástrojov zmysluplne zlepšuje výstupy a ablácia vyhľadávacieho API je zdrvujúca pre zástancov naivnej samoopravy. Článok je tiež úprimný, pokiaľ ide o mechanizmus – prínosy pochádzajú z nástroja, nie z nejakej vznikajúcej metakognitívnej kapacity.

Čo považujem za nedostatočne preskúmané, je taxonómia režimov zlyhania. Kedy model vygeneruje zlú kritiku, ktorá ho odvedie ďalej od správnej odpovede? Článok uvádza priemerný výkon, ale rozptyl medzi úlohami a typmi otázok by bol pre nasadenie nesmierne dôležitý. Vo finančnom kontexte nie je najhorším výsledkom „žiadne zlepšenie“ – je ním hodnoverne znejúca oprava, ktorá zavedie novú chybu.

Voľba limitu na tri iterácie je tiež prezentovaná skôr ako praktické pohodlie než ako principiálne kritérium zastavenia. Tri kolá môžu fungovať pri TriviaQA, kde existuje základná pravda, ku ktorej sa dá dopracovať. V doméne, ako je odsúhlasenie účtovnej knihy, kde „správna“ odpoveď vyžaduje uvažovanie nad viacerými dokumentmi a doménové znalosti, nie je zrejmé, že tri volania nástrojov stačia – alebo že univerzálne vyhľadávacie API vôbec poskytuje správny verifikačný signál.

Súbežný článok z ICLR 2024 „Large Language Models Cannot Self-Correct Reasoning Yet“ (Huang et al., arXiv:2310.01798) potvrdzuje vlastné zistenie CRITIC-u z opačnej strany: bez externej spätnej väzby samooprava spoľahlivo zhoršuje presnosť uvažovania. Tieto dva články spolu vytvárajú ucelený obraz – schopnosť, ktorú ľudia nazývali „samooprava“, je väčšinou upresňovanie riadené externou spätnou väzbou a na tomto rozdiele záleží.

Prečo je to dôležité pre finančnú AI

Slučka CRITIC sa prirodzene hodí na problém bezpečnosti spätného zápisu u agentov Beancount. V súčasnosti, keď LLM agent navrhne záznam do denníka – napríklad kategorizáciu transakcie alebo rozdelenie výdavkov – neexistuje principiálny spôsob, ako by si mohol overiť vlastný výstup pred jeho zapísaním na disk. Architektúra CRITIC naznačuje konkrétny vzorec: vygenerovať kandidátsky záznam, potom spustiť overenie voči nástroju (funkcia kontroly zostatku, pravidlový engine, detektor duplicít) a použiť výstup nástroja na výzvu k revízii predtým, než dôjde k zápisu.

Výsledok toxicity je analógia, ktorú považujem za užitočnú: 79,2 % zníženie porušení pravidiel nepochádza z toho, že by si model internalizoval pravidlá – pochádza z klasifikátora, ktorý porušenia spätne hlási modelu. Pre účtovnú knihu Beancount by ekvivalentom bol nástroj na kontrolu pravidiel, ktorý označí duplicitné transakcie alebo porušenia kategórií a tento signál vloží do revízneho prechodu agenta. Agent nemusí nezávisle vedieť, že pravidlá sú porušené; potrebuje signál z nástroja.

Kritickým obmedzením pre financie je závislosť od vyhľadávacieho API. Finanční agenti potrebujú verifikačné nástroje, ktoré sú špecifické pre danú doménu: kontroly integrity zostatkov na účtoch, validátory účtovej osnovy, vyhľadávanie daňových pravidiel. Všeobecné vyhľadávanie na webe pravdepodobne nezachytí nesprávne klasifikovaný výdavok. Budovanie správnej vrstvy nástrojov pre opravy v štýle CRITIC v účtovníctve je miestom, kde spočíva skutočná inžinierska práca – a článok sa dizajnom doménovo špecifických nástrojov vôbec nezaoberá.

Čo si prečítať ďalej

  • „Large Language Models Cannot Self-Correct Reasoning Yet“ (Huang et al., 2023, arXiv:2310.01798) – priamy empirický argument, že vnútorná samooprava zlyháva; malo by sa čítať spolu s CRITIC, pretože triangulujú ten istý mechanizmus z opačných smerov.
  • „Tree of Thoughts: Deliberate Problem Solving with Large Language Models“ (Yao et al., NeurIPS 2023, arXiv:2305.10601) – rozširuje myšlienku kritiky a opravy jednej cesty na vyhľadávací strom nad medzikrokmi; relevantné pre viacstupňové odsúhlasenie, kde agent potrebuje skúmať a vracať sa späť.
  • „ToolBench: Facilitating Large Language Models in Mastering 16000+ Real-world APIs“ (Qin et al., 2023, arXiv:2307.16789) – skúma, ako sa agenti učia vyberať a reťaziť volania nástrojov, čo je nadväzujúci problém, ktorý CRITIC považuje za samozrejmosť.