Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament
El LOG-009 va tractar PAL, que delega l'aritmètica a un intèrpret de Python perquè el model no hagi de calcular mai. L'auto-consistència aborda el problema ortogonal: què passa si el model raona correctament la majoria de les vegades però no sempre? La resposta resulta ser estadística, no arquitectònica — i sorprenentment eficaç.
L'article
"Self-Consistency Improves Chain of Thought Reasoning in Language Models" de Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery i Denny Zhou (ICLR 2023, arXiv:2203.11171) introdueix una estratègia de descodificació que substitueix la ruta única de cadena de pensament voraç per una votació majoritària sobre moltes rutes mostrejades. La intuïció és senzilla: un problema de raonament complex normalment té una única resposta correcta però moltes rutes vàlides per arribar-hi; és més probable arribar a una resposta incorrecta mitjançant errors idiosincràtics que no convergiran tots en el mateix error.
El mètode es pot implementar directament. S'utilitza qualsevol indicador (prompt) de CoT que ja es tingui, es mostregen N finalitzacions a una temperatura diferent de zero, s'extreu la resposta final de cadascuna i es retorna la resposta majoritària. Sense ajust fi, sense models addicionals, sense etiquetes humanes suplementàries.
Idees clau
- Mida de la mostra i temperatura: L'article utilitza 40 rutes de raonament per problema a una temperatura de 0,7. No és un número màgic ajustat per hiperparàmetres —els estudis d'ablació mostren que els guanys s'estabilitzen aproximadament després de 20-30 mostres, per la qual cosa 40 és una xifra conservadora.
- Millores principals respecte al CoT estàndard: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — totes són millores de precisió absoluta, totes amb el mateix model i indicador.
- Resultats de GSM8K per model: A text-davinci-002 (GPT-3), l'auto-consistència fa passar la precisió del 78,7% al 86,5%. A Codex, del 74,5% al 82,3%. Els guanys són consistents en les diferents famílies de models.
- Sense costos d'entrenament: Tot passa en el moment de la inferència. L'enfocament funciona en qualsevol API de caixa negra on es pugui mostrejar amb una temperatura > 0.
- Votació majoritària per a respostes extractables: El pas d'agregació funciona perfectament quan les respostes són discretes (un número, una opció de lletra). Per a la generació oberta, l'article és menys específic sobre com definir la "més consistent" —una limitació que els autors reconeixen.
Què es manté vigent — i què no
Els guanys empírics són reals, s'han replicat moltes vegades i el mètode és realment útil. Però algunes febleses estructurals mereixen un escrutini.
En primer lloc, el cost és lineal respecte al nombre de mostres. Mostrejar 40 rutes en la inferència costa 40 vegades el pressupost de tokens d'una sola ruta. Per a tasques on la latència i el cost de l'API importen —com un agent que processa centenars de transaccions per nit— això no és trivial. Treballs posteriors (Early-Stopping Self-Consistency, ICLR 2024) aborden això: en aturar-se tan bon punt un vot arriba a un llindar de confiança, es poden reduir les mostres en un 80% a GSM8K sense una pèrdua de precisió mesurable. L'article base no discuteix el cost en absolut, la qual cosa és una omissió estranya.
En segon lloc, la supòsit de la votació majoritària falla quan el model s'equivoca sistemàticament. Si el model llegeix constantment malament una conversió de moneda concreta o aplica malament una regla fiscal en les 40 rutes, la resposta incorrecta guanyarà la votació. L'auto-consistència amplifica l'error més comú, no el correcte. Aquest és el buit epistemològic central: el mètode augmenta la precisió dins de la distribució de creences del model, però no fa res pel calibratge quan aquesta distribució se centra en una resposta errònia.
En tercer lloc, Wang & Wang (2025, arXiv:2503.16974) estudien directament la consistència dels LLM en tasques de finances i comptabilitat a través de 50 execucions independents. Troben que la classificació binària i l'anàlisi de sentiment ja són gairebé perfectament reproduïbles amb una sola mostra, mentre que les tasques complexes (predicció, generació) mostren una variabilitat real. La seva conclusió pràctica: agregar només 3-5 execucions millora dràsticament la consistència per a tasques complexes —una versió molt més econòmica de la mateixa idea de l'auto-consistència.
Per què això és important per a la IA financera
Les operacions del llibre major de Beancount que impliquen aritmètica de diversos passos —càlculs d'impostos, base de cost ajustada per divises, taules d'amortització, conciliació de factures— són exactament el tipus de tasques on una sola descodificació voraç no és fiable, però la resposta correcta és única i verificable. L'auto-consistència és una intervenció barata que hauria de ser l'opció predeterminada per a qualsevol tasca d'agent financer on el resultat es pugui verificar (encara quadra el balanç de situació?).
La implicació més interessant és arquitectònica. L'auto-consistència converteix la inferència en un conjunt de votació. Per a la seguretat en l'escriptura —un agent que publica assentaments en un llibre comptable— voldria condicionar l'acció a la confiança majoritària: només confirmar si 35 de 40 rutes estan d'acord. El desacord és un senyal que l'agent hauria de derivar el cas a un humà en lloc d'escriure. Aquesta és una porta de seguretat concreta i implementable que costa pressupost d'inferència però no complexitat d'enginyeria.
El mode de fallada per biaix sistemàtic és especialment rellevant per a les regles fiscals i reguladores on se sap que els models al·lucinen detalls específics de la jurisdicció. En aquests casos, PAL (LOG-009) és la solució adequada: delegar el càlcul completament. L'auto-consistència i PAL són complementaris —PAL s'encarrega de la correcció aritmètica; l'auto-consistència s'encarrega de l'ambigüitat i la fiabilitat del raonament.
Què llegir a continuació
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — amplia l'auto-consistència de la votació sobre rutes a la cerca sobre rutes, la qual cosa és important quan l'espai de raonament és ramificat en lloc de paral·lel.
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — la solució al problema del cost; redueix el mostreig en més d'un 80% a GSM8K mantenint la precisió.
- Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — estén la votació majoritària a la generació oberta utilitzant un jutge LLM, abordant la mancança d'agregació que l'article original evita.
