Prompting de Cadena de Pensamiento: Compensaciones entre Precisión y Sensibilidad para la IA en Finanzas
Estoy releyendo el artículo de 2022 de Wei et al. sobre la Cadena de Pensamiento (Chain-of-Thought) (arXiv:2201.11903) con una pregunta específica en mente: experimentos anteriores mostraron que el prompting CoT mejoraba la precisión pero perjudicaba la sensibilidad (recall) en la detección de anomalías financieras. El artículo debería explicar por qué — o al menos darme suficiente intuición mecánica para formar una hipótesis.
El artículo
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" de Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma y colegas (Google Brain) es el artículo que puso a CoT en el mapa. La idea es simple: en lugar de pedirle a un modelo que salte directamente a una respuesta, se le muestran algunos ejemplos donde la respuesta va precedida de una traza de razonamiento escrita. El modelo entonces produce su propia traza de razonamiento antes de responder.
El artículo prueba esto en tareas de aritmética (GSM8K, SVAMP, AQuA), sentido común (CommonsenseQA, StrategyQA) y razonamiento simbólico (concatenación de letras, lanzamiento de moneda) a través de tres modelos de lenguaje extensos — PaLM 540B, GPT-3 175B y LaMDA 137B — y lo compara con el prompting estándar de pocos ejemplos (few-shot).
Ideas clave
- GSM8K (problemas matemáticos de razonamiento): el prompting estándar con PaLM 540B obtiene un 17.9%; CoT obtiene un 56.9%, un salto de 39 puntos. Esta es una ganancia impresionante en un benchmark difícil, y es el resultado principal por el que el artículo es justamente conocido.
- Concatenación de letras: estándar 7.6%, CoT 99.4%. Para la manipulación simbólica pura, CoT esencialmente resuelve la tarea a gran escala.
- CommonsenseQA: estándar 78.1%, CoT 79.9%. Ganancia mínima. Las tareas que no requieren inferencia de múltiples pasos no se benefician mucho.
- Abismo de escala: CoT solo ayuda de manera confiable a partir de aproximadamente 100B+ parámetros. Por debajo de ~10B, agregar una traza de razonamiento a menudo perjudica — el modelo produce "cadenas de pensamiento fluidas pero ilógicas", que lo confunden activamente.
- Las tareas fáciles no muestran beneficios: En MAWPS SingleOp (aritmética de un solo paso), PaLM 540B obtuvo un 94.1% tanto con el prompting estándar como con CoT. La sobrecarga de razonamiento no agrega valor cuando la tarea no requiere realmente una inferencia de múltiples pasos.
- Sin garantía de corrección: los autores son explícitos al decir que un LLM puede producir una traza de razonamiento de apariencia coherente que conduzca a una respuesta incorrecta. La traza y la respuesta se generan conjuntamente, y ninguna se verifica de forma independiente.
Qué se mantiene y qué no
Los resultados empíricos se mantienen. Las ganancias en GSM8K se replican en trabajos posteriores, el umbral de escala coincide con lo observado en otros lugares y las cifras de razonamiento simbólico son consistentes con lo que se esperaría de la mecánica de aprendizaje en contexto. Este artículo hizo ciencia real.
Lo que encuentro poco explorado es la asimetría entre precisión y sensibilidad. Wei et al. muestran cifras de precisión agregada — no desglosan las tasas de falsos positivos frente a falsos negativos. Pero si se piensa en cómo CoT cambia la distribución de las respuestas, el mecanismo es sugerente: CoT incita al modelo a generar y comprometerse con una ruta de razonamiento. Este estrechamiento del espacio de generación probablemente aumenta la especificidad (precisión) a expensas de la cobertura (sensibilidad). El modelo produce menos respuestas en general, y las que produce tienden a estar mejor justificadas, pero puede pasar por alto respuestas correctas que no encajan en una narrativa paso a paso nítida. Para la detección de anomalías en datos financieros, donde la clase "anomalía" es rara y atípica por definición, este es exactamente el modo de falla que se esperaría.
El artículo también deja abierta la cuestión mecánica. Los autores tienen cuidado de no afirmar que el modelo está "razonando realmente" en un sentido fuerte. No se ha resuelto si CoT provoca una inferencia genuina de múltiples pasos o un atajo sofisticado de coincidencia de patrones que imita dicha inferencia. Un informe de Wharton de 2025 que probó modelos de razonamiento modernos (o3-mini, o4-mini) encontró que las instrucciones explícitas de CoT producían solo ganancias marginales del 2 al 3%, y a veces reducían la "precisión perfecta" al desencadenar errores en preguntas que el modelo de otro modo habría respondido correctamente. El umbral de escala del artículo puede haber cambiado a medida que los modelos han mejorado en el razonamiento implícito, pero el problema de la variabilidad, donde CoT introduce una probabilidad no nula de descarrilar una respuesta que de otro modo sería correcta, persiste.
Por qué esto es importante para la IA en finanzas
Tres conexiones con la agenda de Bean Labs:
Primero, el problema de seguridad en la escritura (write-back). Un agente impulsado por CoT que explica su razonamiento antes de realizar una acción en el libro mayor proporciona una pista de auditoría — pero la traza de razonamiento no es una garantía de corrección. El agente puede producir una explicación de apariencia plausible para una acción incorrecta. Esto significa que mostrar a los usuarios una traza de razonamiento puede crear una falsa confianza en lugar de una auditabilidad genuina.
Segundo, la asimetría en la detección de anomalías. Si CoT aumenta la precisión pero reduce la sensibilidad en tareas de detección de eventos raros, entonces para los casos de uso de Beancount — encontrar transacciones mal clasificadas, marcar entradas duplicadas, detectar violaciones de políticas — el uso ingenuo de CoT puede producir menos falsas alarmas a costa de perder problemas reales. Esa es potencialmente la compensación incorrecta. Un agente financiero que explica con confianza por qué no marcó algo sospechoso es más peligroso que uno que marca en exceso.
Tercero, la dependencia de la escala. Si los agentes financieros de producción se ejecutan en modelos más pequeños por razones de costo o latencia, las ganancias de CoT se evaporan — y pueden revertirse. Cualquier evaluación de un agente financiero basado en CoT debe realizarse con la misma escala de modelo que se utiliza en producción.
Qué leer a continuación
- "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — muestrea múltiples rutas de CoT y toma la votación mayoritaria; aborda directamente el problema de la varianza que Wei et al. señalan.
- "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — muestra que "Pensemos paso a paso" sin ningún ejemplo también provoca el razonamiento; prueba los límites de lo que CoT realmente necesita.
- "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — ataca directamente la cuestión mecánica que el artículo original deja abierta.
