Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento
El LOG-009 cubrió PAL, que delega la aritmética a un intérprete de Python para que el modelo nunca tenga que computar. La autoconsistencia aborda el problema ortogonal: ¿qué pasa si el modelo razona correctamente la mayor parte del tiempo pero no siempre? La respuesta resulta ser estadística, no arquitectónica, y vergonzosamente efectiva.
El artículo
"Self-Consistency Improves Chain of Thought Reasoning in Language Models" de Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery y Denny Zhou (ICLR 2023, arXiv:2203.11171) presenta una estrategia de decodificación que reemplaza la ruta única y codiciosa de cadena de pensamiento con un voto mayoritario sobre muchas rutas muestreadas. La intuición es compacta: un problema de razonamiento difícil suele tener una única respuesta correcta pero muchas rutas válidas para llegar a ella; es más probable que se llegue a una respuesta incorrecta mediante errores idiosincrásicos que no convergerán todos en el mismo error.
El método es plug-and-play. Se toma cualquier prompt de CoT (cadena de pensamiento) que ya se tenga, se muestrean N completados a una temperatura distinta de cero, se extrae la respuesta final de cada uno y se devuelve la respuesta por mayoría simple. Sin ajuste fino, sin modelos adicionales, sin etiquetas humanas extra.
Ideas clave
- Tamaño de muestra y temperatura: El artículo utiliza 40 rutas de razonamiento por problema a una temperatura de 0,7. Este no es un número mágico ajustado por hiperparámetros; las ablaciones muestran que las ganancias se estabilizan aproximadamente después de 20–30 muestras, por lo que 40 es una cifra conservadora.
- Ganancias principales sobre CoT estándar: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — todas son mejoras de precisión absoluta, todas con el mismo modelo y prompt.
- Resultados de GSM8K por modelo: En text-davinci-002 (GPT-3), la autoconsistencia eleva la precisión del 78,7% al 86,5%. En Codex, del 74,5% al 82,3%. Las ganancias son consistentes entre familias de modelos.
- Sin costo de entrenamiento: Todo sucede en el momento de la inferencia. El enfoque funciona en cualquier API de caja negra donde se pueda muestrear con una temperatura > 0.
- Voto mayoritario para respuestas extraíbles: El paso de agregación funciona limpiamente cuando las respuestas son discretas (un número, una opción de letra). Para la generación de respuesta abierta, el artículo es menos específico sobre cómo definir la "más consistente", una limitación que los autores reconocen.
Qué se mantiene — y qué no
Las ganancias empíricas son reales, replicadas muchas veces, y el método es genuinamente útil. Pero algunas debilidades estructurales merecen escrutinio.
Primero, el costo es lineal respecto al número de muestras. Muestrear 40 rutas en la inferencia cuesta 40 veces el presupuesto de tokens de una sola ruta. Para tareas donde la latencia y el costo de la API son importantes — como un agente que procesa cientos de transacciones por noche — esto no es trivial. Trabajos posteriores (Early-Stopping Self-Consistency, ICLR 2024) abordan esto: al detenerse tan pronto como un voto alcanza un umbral de confianza, se pueden reducir las muestras en un 80% en GSM8K sin una pérdida de precisión medible. El artículo base no discute el costo en absoluto, lo cual es una omisión extraña.
Segundo, el supuesto del voto mayoritario falla cuando el modelo se equivoca sistemáticamente. Si el modelo interpreta consistentemente mal una conversión de moneda específica o aplica mal una regla fiscal en las 40 rutas, la respuesta incorrecta ganará el voto. La autoconsistencia amplifica el error más común, no el correcto. Esta es la brecha epistemológica central: el método aumenta la precisión dentro de la distribución de creencias del modelo, pero no hace nada por la calibración cuando esa distribución está centrada en una respuesta errónea.
Tercero, Wang & Wang (2025, arXiv:2503.16974) estudian la consistencia de los LLM directamente en tareas de finanzas y contabilidad a través de 50 ejecuciones independientes. Encuentran que la clasificación binaria y el análisis de sentimientos ya son casi perfectamente reproducibles con una sola muestra, mientras que las tareas complejas (predicción, generación) muestran una variabilidad genuina. Su hallazgo práctico: agregar solo de 3 a 5 ejecuciones mejora drásticamente la consistencia para tareas complejas — una versión mucho más económica de la misma idea de autoconsistencia.
Por qué esto es importante para la IA financiera
Las operaciones del libro mayor de Beancount que involucran aritmética de varios pasos — cálculos de impuestos, base de costos ajustada por tipo de cambio (FX), programas de depreciación, conciliación de facturas — son exactamente el tipo de tareas donde una sola decodificación codiciosa no es confiable, pero la respuesta correcta es única y verificable. La autoconsistencia es una intervención económica que debería ser la opción predeterminada para cualquier tarea de agente financiero donde el resultado pueda verificarse (¿sigue cuadrando el balance general?).
La implicación más interesante es arquitectónica. La autoconsistencia convierte la inferencia en un ensamble de votación. Para la seguridad de escritura — un agente que publica asientos de diario en un libro mayor — yo querría condicionar la acción a la confianza de la mayoría: solo comprometer la operación si 35 de 40 rutas están de acuerdo. El desacuerdo es una señal de que el agente debe escalar el problema a un humano en lugar de escribir. Esta es una barrera de seguridad concreta e implementable que cuesta presupuesto de inferencia pero no complejidad de ingeniería.
El modo de falla por sesgo sistemático es especialmente relevante para las reglas fiscales y regulatorias donde se sabe que los modelos alucinan detalles específicos de cada jurisdicción. En esos casos, PAL (LOG-009) es la solución correcta: delegar el cálculo por completo. La autoconsistencia y PAL son complementarios: PAL se encarga de la corrección aritmética; la autoconsistencia se encarga de la ambigüedad y la fiabilidad del razonamiento.
Qué leer a continuación
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — extiende la autoconsistencia del voto sobre rutas a la búsqueda sobre rutas, lo cual es importante cuando el espacio de razonamiento se ramifica en lugar de ser paralelo.
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — la solución al problema del costo; reduce el muestreo en más del 80% en GSM8K preservando la precisión.
- Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — extiende el voto mayoritario a la generación de respuesta abierta utilizando un LLM como juez, abordando la brecha de agregación que el artículo original esquiva.
