Prejsť na hlavný obsah

LLM zatiaľ nedokážu samy opravovať uvažovanie – zistenia z ICLR 2024 a dôsledky pre finančnú AI

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Tento článok je priamym protipólom k prácam zo sérií CRITIC a Reflexion, ktoré som čítal. Huang a kol. (ICLR 2024) predkladajú jednoduchý, nepríjemný argument: keď sa LLM snažia samy opraviť svoje uvažovanie bez akéhokoľvek externého signálu, nezlepšujú sa – zhoršujú sa. Tento článok, nasledujúci hneď po LOG-013 o CRITIC (kde kritika založená na nástrojoch skutočne pomohla), objasňuje, aký druh „samoopravy“ je reálny a čo je len artefaktom experimentálneho nastavenia.

Článok

2026-04-28-llms-cannot-self-correct-reasoning-yet

Článok „Large Language Models Cannot Self-Correct Reasoning Yet“ od autorov Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song a Denny Zhou (Google DeepMind / UIUC) bol publikovaný na ICLR 2024. Ústredné tvrdenie je úzke, ale zdrvujúce pre určitú triedu návrhov agentov: intrinzická samooprava – teda požiadanie LLM, aby skontroloval a revidoval svoju vlastnú odpoveď len na základe vlastného úsudku, bez signálu o skutočnej pravdivosti (ground-truth) – konzistentne znižuje výkon v benchmarkoch uvažovania. Autori tvrdia, že zisky uvádzané v niekoľkých predchádzajúcich prácach o samooprave vyplývajú z jemnej metodologickej chyby: tieto práce používali „označenia orakula“ (oracle labels) na rozhodnutie, kedy prestať s opravami, čo znamená, že model opravoval iba už nesprávne odpovede. To nie je samooprava; je to filtrovanie riadené orakulom.

Kľúčové myšlienky

  • V teste GSM8K začína GPT-4 s presnosťou 95,5 %. Po jednom kole intrinzickej samoopravy klesá na 91,5 % a po druhom kole na 89,0 %. GPT-3.5 klesá počas dvoch kôl zo 75,9 % na 74,7 %.
  • Pokles je dramatickejší v teste CommonSenseQA: GPT-3.5 klesá zo 75,8 % na 38,1 % po jedinom kole samoopravy, pričom v druhom kole sa mierne zotavuje na 41,8 % – stále však katastrofálne pod východiskovou hodnotou.
  • Analýza zmien odpovedí v GSM8K ukazuje, že model mení správne odpovede na nesprávne častejšie, než mení nesprávne odpovede na správne. Čistý smer zmeny je škodlivý.
  • Samooprava riadená orakulom veci zlepšuje: GPT-4 v GSM8K s označeniami orakula stúpa z 95,5 % na 97,5 % a GPT-3.5 v CommonSenseQA zo 75,8 % na 89,7 %. To však vyžaduje vedieť, ktoré odpovede sú nesprávne – čo pri nasadení v praxi nemôžete vedieť.
  • Debata viacerých agentov (multi-agent debate), ďalšia populárna myšlienka, zaostáva za jednoduchou vlastnou konzistenciou (self-consistency) pri zachovaní rovnakého inferenčného rozpočtu. S celkovo 9 odpoveďami dosahuje vlastná konzistencia 88,2 % v GSM8K; debata viacerých agentov dosahuje iba 83,0 %.
  • Generovanie s obmedzeniami (CommonGen-Hard) sa na prvý pohľad zdá byť víťazstvom pre samoopravu (44 % → 67 %), ale tento zisk sa vyparí, ak len zlepšíte počiatočný prompt (81,8 %). Keď je štartovací prompt už dobrý, samooprava škodí a znižuje presnosť na 75,1 %.

Čo obstojí – a čo nie

Hlavné zistenie je solídne: čísla nepustia. Ak vyzvete GPT-4, aby prekontroloval svoje matematické odpovede bez toho, aby ste mu povedali, ktoré sú nesprávne, odpovede sa v priemere zhoršia. Intuícia, ktorú článok ponúka, je tiež správna – LLM nedokážu spoľahlivo posúdiť správnosť vlastného uvažovania, takže keď sa rozhodnú zmeniť odpoveď, hádajú, a hádajú nesprávne aspoň tak často, ako hádajú správne.

Článok je menej presvedčivý vo svojich tvrdeniach o zovšeobecnení. Testuje výhradne úlohy zamerané na uvažovanie a vedomosti. Existujú domény – štýl písania, dodržiavanie formálnych obmedzení, redukcia toxicity – kde iteratívna revízia pravdepodobne pomáha, a článok tieto oblasti zväčša obchádza. Autori to mimochodom priznávajú s poznámkou, že „samooprava môže byť efektívnejšia pri úlohách, kde je vyhodnotenie jednoduchšie,“ ale netestujú to podrobne. Experiment CommonGen s generovaním pod obmedzeniami je sugestívny, ale použitie neadekvátneho počiatočného promptu ako základu a nazývanie výsledného zlepšenia „samoopravou“ je rovnaká metodologická chyba, ktorú článok kritizuje v iných prácach.

Článok sa tiež nezaoberá otázkou trénovanej samoopravy. Nadväzujúca práca z roku 2025 (SCoRe, ICLR 2025, arXiv:2409.12917) ukazuje, že samooprava trénovaná pomocou RL na vlastných výstupoch modelu dosahuje +15,6 % v teste MATH a +9,1 % v HumanEval – čo je skutočné intrinzické zlepšenie. Takže názov „zatiaľ nedokážu samy opravovať“ zostarol lepšie, než by umožňoval striktnejší výklad; správna interpretácia je „nedajú sa k samooprave dotlačiť promptom,“ nie „nedokážu sa naučiť samooprave.“

Prečo je to dôležité pre finančnú AI

Dôsledok pre agentov zapisujúcich do hlavnej knihy je konkrétny. Agent, ktorý vygeneruje účtovný zápis Beancount a následne sa sám seba opýta „vyzerá to správne?“ a reviduje ho, nezískava druhý názor – vnáša do procesu šum. Údaje tu hovoria, že ak bola prvá odpoveď nesprávna, vlastná kontrola s rovnakou pravdepodobnosťou poškodí správnu odpoveď, ako opraví tú nesprávnu.

Tento článok potvrdzuje konštrukčné obmedzenie, ktoré som vyvodil z CRITIC: vlastná validácia bez externého orakula je nespoľahlivá. Konkrétne pre Beancount je externé orakulum dostupné a lacné – kontroly zostatkov (balance assertions) bežia v milisekundách, názvy účtov sa overujú voči známemu účtovému rozvrhu, sumy musia súhlasiť na cent. Architektúra agenta, ktorá odošle predbežný zápis, spustí bean-check a akúkoľvek chybu vráti späť ako konkrétnu štruktúrovanú spätnú väzbu, je zásadne iná než tá, ktorá model požiada, aby „skontroloval svoj účtovný zápis.“ Prvá menovaná používa účtovný engine ako orakulum. Druhá sa spolieha na ten istý mechanizmus uvažovania, ktorý chybu v prvom rade spôsobil.

Je tu aj jemnejšie ponaučenie o návrhu promptov. Experiment CommonGen ukazuje, že keď je prompt už presný a explicitný, samooprava znižuje výkon. To znamená, že ak investujeme úsilie do písania veľmi jasných promptov na parsovanie transakcií – takých, ktoré explicitne uvádzajú všetky syntaktické pravidlá Beancount – pridanie slučky vlastnej kontroly nad ne môže aktívne poškodiť presnosť. Správna architektúra pravdepodobne podmieňuje vlastnú kontrolu zlyhaním externého testu, nie ju spúšťa pri každom generovaní.

Čo si prečítať ďalej

  • SCoRe: Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917, ICLR 2025) – prístup založený na RL, ktorý dosahuje prvé skutočné intrinzické zisky v samooprave; nevyhnutný kontext pre pochopenie toho, čo súčasný článok vylučuje a čo nie.
  • When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs (TACL 2024) – systematická taxonómia toho, kedy samooprava funguje, rozlišujúca intrinzické varianty, varianty založené na tréningu a varianty s podporou nástrojov.
  • Self-Refine: Iterative Refinement with Self-Feedback (NeurIPS 2023) – primárny článok, ktorý Huang a kol. kritizujú; jeho prečítanie hneď po tomto článku objasňuje, kde presne je zabudovaný predpoklad označenia orakula.