Prejsť na hlavný obsah

Self-Consistency: Vzorkovanie väčšinovým hlasovaním zvyšuje presnosť Chain-of-Thought

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

LOG-009 sa venoval PAL, ktorý prenecháva aritmetiku interpretu Pythonu, takže model nikdy nemusí počítať. Self-consistency rieši ortogonálny problém: čo ak model uvažuje správne väčšinu času, ale nie vždy? Odpoveď sa ukazuje byť štatistická, nie architektonická — a až trápne efektívna.

Článok

2026-04-24-self-consistency-chain-of-thought

"Self-Consistency Improves Chain of Thought Reasoning in Language Models" od autorov Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery a Denny Zhou (ICLR 2023, arXiv:2203.11171) predstavuje stratégiu dekódovania, ktorá nahrádza jednu chamtivú cestu chain-of-thought väčšinovým hlasovaním nad mnohými vzorkovanými cestami. Intuícia je stručná: náročný logický problém má zvyčajne jednu správnu odpoveď, ale mnoho platných ciest k nej; nesprávna odpoveď je pravdepodobnejšie dosiahnutá náhodnými chybami, ktoré sa všetky nezbiehajú k rovnakému omylu.

Metóda je typu plug-and-play. Vezmete akýkoľvek CoT prompt, ktorý už máte, navzorkujete N dokončení pri nenulovej teplote (temperature), extrahujete finálnu odpoveď z každého a vrátite odpoveď s najväčším počtom hlasov (plurality). Žiadne doladenie, žiadne extra modely, žiadne dodatočné ľudské označovanie dát.

Kľúčové myšlienky

  • Veľkosť vzorky a teplota: Článok používa 40 ciest uvažovania na problém pri teplote 0,7. Nejde o magické číslo vyladené ako hyperparameter — ablácie ukazujú, že zisky stagnujú približne po 20–30 vzorkách, takže 40 je konzervatívny odhad.
  • Hlavné zisky oproti štandardnému CoT: GSM8K +17,9 %, SVAMP +11,0 %, AQuA +12,2 %, StrategyQA +6,4 %, ARC-challenge +3,9 % — všetko sú to absolútne zlepšenia presnosti, všetky s rovnakým modelom a promptom.
  • Výsledky GSM8K podľa modelov: Na text-davinci-002 (GPT-3) self-consistency posúva presnosť zo 78,7 % na 86,5 %. Na Codex z 74,5 % na 82,3 %. Zisky sú konzistentné naprieč rodinami modelov.
  • Nulové náklady na tréning: Všetko sa deje pri inferencii. Prístup funguje na akomkoľvek "black-box" API, kde môžete vzorkovať s teplotou > 0.
  • Väčšinové hlasovanie pre extrahovateľné odpovede: Krok agregácie funguje čisto, keď sú odpovede diskrétne (číslo, voľba písmena). Pri generovaní s otvoreným koncom je článok menej špecifický v tom, ako definovať "najkonzistentnejšiu" odpoveď — čo je obmedzenie, ktoré autori priznávajú.

Čo zostáva v platnosti — a čo nie

Empirické zisky sú reálne, mnohokrát replikované a metóda je skutočne užitočná. Niekoľko štrukturálnych slabín si však zaslúži pozornosť.

Po prvé, náklady sú lineárne k počtu vzoriek. Vzorkovanie 40 ciest pri inferencii stojí 40-násobok rozpočtu tokenov jednej cesty. Pre úlohy, kde záleží na latencii a nákladoch na API — ako agent spracovávajúci stovky transakcií za noc — to nie je zanedbateľné. Následná práca (Early-Stopping Self-Consistency, ICLR 2024) to rieši: zastavením hneď, ako hlasovanie dosiahne prah spoľahlivosti, môžete znížiť počet vzoriek o 80 % na GSM8K bez merateľnej straty presnosti. Základný článok náklady vôbec nerieši, čo je zvláštne opomenutie.

Po druhé, predpoklad väčšinového hlasovania zlyháva, keď sa model mýli systematicky. Ak model konzistentne nesprávne prečíta konkrétnu konverziu meny alebo nesprávne aplikuje daňové pravidlo vo všetkých 40 cestách, hlasovanie vyhrá nesprávna odpoveď. Self-consistency zosilňuje najčastejšiu chybu, nie tú správnu. To je jadro epistemologickej medzery: metóda zvyšuje precíznosť v rámci distribúcie presvedčení modelu, ale nerobí nič pre kalibráciu, keď je táto distribúcia centrovaná na nesprávnu odpoveď.

Po tretie, Wang & Wang (2025, arXiv:2503.16974) priamo študujú konzistentnosť LLM v úlohách z oblasti financií a účtovníctva v 50 nezávislých behoch. Zisťujú, že binárna klasifikácia a analýza sentimentu sú už teraz takmer dokonale reprodukovateľné s jednou vzorkou, zatiaľ čo komplexné úlohy (predikcia, generovanie) vykazujú skutočnú variabilitu. Ich praktické zistenie: agregácia len 3–5 behov dramaticky zlepšuje konzistentnosť pre zložité úlohy — čo je oveľa lacnejšia verzia tej istej myšlienky ako self-consistency.

Prečo je to dôležité pre finančnú AI

Operácie v účtovnej knihe Beancount, ktoré zahŕňajú viacstupňovú aritmetiku — daňové výpočty, nákladovú bázu upravenú o FX, odpisové plány, odsúhlasovanie faktúr — sú presne tie druhy úloh, kde je jedno chamtivé dekódovanie nespoľahlivé, ale správna odpoveď je jedinečná a overiteľná. Self-consistency je lacný zásah, ktorý by mal byť predvoleným nastavením pre akúkoľvek úlohu finančného agenta, kde je možné výstup overiť (sedí súvaha stále?).

Zaujímavejší dôsledok je architektonický. Self-consistency mení inferenciu na hlasovací ansámbel. Pre bezpečnosť zápisu — agenta, ktorý pridáva účtovné zápisy do knihy — by som chcel podmieniť zápis väčšinovou istotou: vykonať ho len vtedy, ak sa zhodne 35 zo 40 ciest. Nezhoda je signálom, že agent by mal problém eskalovať na človeka namiesto zápisu. Ide o konkrétnu, implementovateľnú bezpečnostnú bránu, ktorá stojí rozpočet inferencie, ale nie zložitosť inžinierstva.

Zlyhanie pri systematickom skreslení (bias) je dôležité najmä pri daňových a regulačných pravidlách, kde modely halucinujú detaily špecifické pre konkrétnu jurisdikciu. V týchto prípadoch je správnou nápravou PAL (LOG-009): úplne presunúť výpočet externe. Self-consistency a PAL sa dopĺňajú — PAL rieši aritmetickú správnosť; self-consistency rieši nejednoznačnosť a spoľahlivosť uvažovania.

Čo si prečítať ďalej

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — rozširuje self-consistency z hlasovania nad cestami na vyhľadávanie v cestách, čo je dôležité, keď je priestor uvažovania vetvený, nie paralelný.
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — oprava problému s nákladmi; znižuje vzorkovanie o 80 %+ na GSM8K pri zachovaní presnosti.
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — rozširuje väčšinové hlasovanie na generovanie s otvoreným koncom pomocou LLM sudcu, čím rieši medzeru v agregácii, ktorú pôvodný článok obchádza.