Chain-of-Thought Prompting: Kompromisy medzi presnosťou a úplnosťou pre finančnú AI
Znovu si čítam článok o Chain-of-Thought od Wei a kol. z roku 2022 (arXiv:2201.11903) s konkrétnou otázkou v hlave: skoršie experimenty ukázali, že promptovanie pomocou CoT zlepšilo presnosť (precision), ale poškodilo úplnosť (recall) pri detekcii finančných anomálií. Článok by mal vysvetliť prečo — alebo mi aspoň poskytnúť dostatočnú mechanistickú intuíciu na sformovanie hypotézy.
Článok
„Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“ od Jasona Weiho, Xuezhiho Wanga, Dalea Schuurmansa, Maartena Bosmu a kolegov (Google Brain) je článok, ktorý preslávil CoT. Myšlienka je jednoduchá: namiesto toho, aby ste od modelu chceli, aby skočil priamo k odpovedi, ukážete mu niekoľko príkladov, kde odpovedi predchádza spísaná stopa uvažovania (reasoning trace). Model potom pred odpoveďou vygeneruje svoju vlastnú stopu uvažovania.
Článok to testuje na aritmetických úlohách (GSM8K, SVAMP, AQuA), úlohách so zdravým rozumom (CommonsenseQA, StrategyQA) a symbolickom uvažovaní (spájanie písmen, hod mincou) naprieč tromi veľkými jazykovými modelmi — PaLM 540B, GPT-3 175B a LaMDA 137B — a porovnáva to so štandardným few-shot promptovaním.
Kľúčové myšlienky
- GSM8K (matematické slovné úlohy): štandardné promptovanie s PaLM 540B dosahuje 17,9 %; CoT dosahuje 56,9 %, čo je nárast o 39 bodov. To je ohromujúci zisk v náročnom benchmarku a je to hlavný výsledok, ktorým je článok právom známy.
- Spájanie písmen: štandardné 7,6 %, CoT 99,4 %. Pri čistej symbolickej manipulácii CoT v podstate rieši úlohu pri veľkom rozsahu.
- CommonsenseQA: štandardné 78,1 %, CoT 79,9 %. Minimálny zisk. Úlohy, ktoré nevyžadujú viacstupňovú inferenciu, z toho veľa neprofitujú.
- Prah rozsahu (Scale cliff): CoT spoľahlivo pomáha až pri približne 100B+ parametroch. Pod ~10B pridanie stopy uvažovania často škodí — model produkuje „plynulé, ale nelogické reťazce myšlienok“, ktoré ho aktívne zavádzajú.
- Jednoduché úlohy nevykazujú žiadny prínos: Na MAWPS SingleOp (jednostupňová aritmetika) dosiahol PaLM 540B skóre 94,1 % pri štandardnom aj CoT promptovaní. Réžia uvažovania neprináša žiadnu hodnotu, keď úloha v skutočnosti nevyžaduje viacstupňovú inferenciu.
- Žiadna záruka správnosti: autori výslovne uvádzajú, že LLM môže vytvoriť koherentne vyzerajúcu stopu uvažovania, ktorá vedie k nesprávnej odpovedi. Stopa a odpoveď sú generované spoločne a ani jedna nie je nezávisle overená.
Čo obstálo – a čo nie
Empirické výsledky obstáli. Zisky na GSM8K sú replikované v nadväzujúcich prácach, prah rozsahu zodpovedá tomu, čo bolo pozorované inde, a čísla symbolického uvažovania sú v súlade s tým, čo by ste očakávali od mechaniky in-context učenia. Tento článok urobil skutočnú vedu.
Čo považujem za nedostatočne preskúmané, je asymetria medzi presnosťou (precision) a úplnosťou (recall). Wei a kol. uvádzajú súhrnné čísla presnosti (accuracy) — nerozpisujú mieru falošne pozitívnych oproti falošne negatívnym výsledkom. Ak sa však zamyslíte nad tým, ako CoT mení distribúciu odpovedí, mechanizmus je veľavravný: CoT podnecuje model, aby vygeneroval a zaviazal sa k určitej ceste uvažovania. Toto zúženie generačného priestoru pravdepodobne zvyšuje špecifickosť (presnosť) na úkor pokrytia (úplnosti). Model produkuje celkovo menej odpovedí a tie, ktoré vyprodukuje, bývajú lepšie odôvodnené — môže však vynechať správne odpovede, ktoré nezapadajú do úhľadného krokového rozprávania. Pri detekcii anomálií vo finančných údajoch, kde je trieda „anomália“ z definície zriedkavá a atypická, je to presne ten typ zlyhania, ktorý by ste očakávali.
Článok tiež necháva otvorenú mechanistickú otázku. Autori sú opatrní a netvrdia, že model „skutočne uvažuje“ v akomkoľvek silnom zmysle slova. Či CoT vyvoláva skutočnú viacstupňovú inferenciu alebo sofistikovanú skratku porovnávania vzorov, ktorá takúto inferenciu napodobňuje, zostáva nevyriešené. Správa z Whartonu z roku 2025, ktorá testovala moderné modely uvažovania (o3-mini, o4-mini), zistila, že explicitné inštrukcie CoT priniesli len 2 – 3 % marginálne zisky a niekedy znížili „dokonalú presnosť“ vyvolaním chýb v otázkach, na ktoré by model inak odpovedal správne. Prah rozsahu uvedený v článku sa mohol posunúť, keďže modely sa zlepšili v implicitnom uvažovaní — ale problém variability, kde CoT zavádza nenulovú šancu na vykoľajenie inak správnej odpovede, pretrváva.
Prečo je to dôležité pre finančnú AI
Tri súvislosti s agendou Bean Labs:
Po prvé, problém bezpečnosti zápisu (write-back safety). Agent využívajúci CoT, ktorý vysvetľuje svoje uvažovanie pred vykonaním akcie v účtovnej knihe, poskytuje auditnú stopu — stopa uvažovania však nie je zárukou správnosti. Agent môže vygenerovať presvedčivo vyzerajúce vysvetlenie pre nesprávnu akciu. To znamená, že zobrazenie stopy uvažovania používateľom môže vyvolať falošnú dôveru namiesto skutočnej auditovateľnosti.
Po druhé, asymetria detekcie anomálií. Ak CoT zvyšuje presnosť, ale znižuje úplnosť pri úlohách detekcie zriedkavých udalostí, potom pre prípady použitia Beancount — hľadanie nesprávne klasifikovaných transakcií, označovanie duplicitných záznamov, zachytávanie porušení pravidiel — môže naivné používanie CoT vyprodukovať menej falošných poplachov za cenu prehliadnutia skutočných problémov. To je potenciálne nesprávny kompromis. Finančný agent, ktorý sebavedomo vysvetľuje, prečo neoznačil niečo podozrivé, je nebezpečnejší ako ten, ktorý označuje príliš veľa vecí.
Po tretie, závislosť od rozsahu. Ak produkční finanční agenti bežia na menších modeloch z dôvodu nákladov alebo latencie, zisky z CoT sa vytrácajú — a môžu sa dokonca obrátiť. Akékoľvek vyhodnotenie finančného agenta založeného na CoT sa musí vykonať pri rovnakom rozsahu modelu, aký sa používa v produkcii.
Čo si prečítať ďalej
- „Self-Consistency Improves Chain of Thought Reasoning in Language Models“ (Wang a kol., 2022, arXiv:2203.11171) — vzorkuje viacero ciest CoT a berie väčšinový hlas; priamo rieši problém rozptylu, na ktorý upozorňujú Wei a kol.
- „Large Language Models are Zero-Shot Reasoners“ (Kojima a kol., 2022, arXiv:2205.11916) — ukazuje, že veta „Poďme premýšľať krok za krokom“ bez akýchkoľvek príkladov tiež vyvoláva uvažovanie; testuje hranice toho, čo CoT v skutočnosti potrebuje.
- „Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?“ (arXiv:2508.01191) — priamo útočí na mechanistickú otázku, ktorú pôvodný článok nechal otvorenú.
