Prompting de Cadena de Pensament: Compromisos entre Precisió i Exhaustivitat per a la IA Financera
Estic tornant a llegir l'article sobre Chain-of-Thought (CoT) de 2022 de Wei et al. (arXiv:2201.11903) amb una pregunta específica en ment: experiments anteriors van mostrar que el prompting CoT millorava la precisió però perjudicava l'exhaustivitat (recall) en la detecció d'anomalies financeres. L'article hauria d'explicar per què — o almenys donar-me prou intuïció mecànica per formar una hipòtesi.
L'article
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" de Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma i col·legues (Google Brain) és l'article que va posar el CoT al mapa. La idea és senzilla: en lloc de demanar a un model que salti directament a una resposta, se li mostren uns quants exemples on la resposta va precedida d'una traça de raonament escrita. Aleshores, el model produeix la seva pròpia traça de raonament abans de respondre.
L'article prova això en tasques d'aritmètica (GSM8K, SVAMP, AQuA), sentit comú (CommonsenseQA, StrategyQA) i raonament simbòlic (concatenació de lletres, llançament de moneda) en tres models de llenguatge de gran escala — PaLM 540B, GPT-3 175B i LaMDA 137B — i ho compara amb el prompting few-shot estàndard.
Idees clau
- GSM8K (problemes matemàtics de text): el prompting estàndard amb PaLM 540B obté un 17,9%; el CoT obté un 56,9%, un salt de 39 punts. Aquest és un guany impressionant en un referent difícil, i és el resultat principal pel qual l'article és conegut amb raó.
- Concatenació de lletres: estàndard 7,6%, CoT 99,4%. Per a la pura manipulació simbòlica, el CoT essencialment resol la tasca a gran escala.
- CommonsenseQA: estàndard 78,1%, CoT 79,9%. Guany mínim. Les tasques que no requereixen inferència de múltiples passos no se'n beneficien gaire.
- Precipici d'escala: el CoT només ajuda de manera fiable a partir dels 100.000 milions (100B) de paràmetres aproximadament. Per sota dels ~10B, afegir una traça de raonament sovint perjudica — el model produeix "cadenes de pensament fluides però il·lògiques", que el condueixen activament a l'error.
- Les tasques fàcils no mostren cap benefici: a MAWPS SingleOp (aritmètica d'un sol pas), PaLM 540B va puntuar un 94,1% tant amb el prompting estàndard com amb CoT. La sobrecàrrega de raonament no afegeix valor quan la tasca realment no requereix inferència de múltiples passos.
- Sense garantia de correcció: els autors són explícits en dir que un LLM pot produir una traça de raonament amb aspecte coherent que porti a una resposta incorrecta. La traça i la resposta es generen conjuntament, i cap de les dues es verifica de manera independent.
Què es manté — i què no
Els resultats empírics es mantenen. Els guanys a GSM8K es repliquen en treballs posteriors, el llindar d'escala coincideix amb el que s'ha observat en altres llocs, i les xifres de raonament simbòlic són coherents amb el que s'esperaria de la mecànica d'aprenentatge en context. Aquest article va fer ciència real.
El que trobo poc explorat és l'asimetria entre precisió i exhaustivitat. Wei et al. mostren xifres d'exactitud agregades — no desglossen les taxes de falsos positius versus falsos negatius. Però si penses en com el CoT canvia la distribució de les respostes, el mecanisme és suggeridor: el CoT indueix el model a generar i comprometre's amb un camí de raonament. Aquest estrenyiment de l'espai de generació probablement augmenta l'especificitat (precisió) a costa de la cobertura (exhaustivitat). El model produeix menys respostes en general, i les que produeix solen estar més ben justificades — però pot passar per alt respostes correctes que no encaixen en una narrativa pas a pas polida. Per a la detecció d'anomalies en dades financeres, on la classe "anomalia" és rara i atípica per definició, aquest és exactament el mode de fallada que s'esperaria.
L'article també deixa oberta la qüestió mecànica. Els autors tenen cura de no afirmar que el model està "raonant realment" en cap sentit fort. Si el CoT provoca una inferència genuïna de múltiples passos o una drecera sofisticada de reconeixement de patrons que imita aquesta inferència és una qüestió no resolta. Un informe de Wharton de 2025 que provava models de raonament moderns (o3-mini, o4-mini) va trobar que les instruccions explícites de CoT produïen només guanys marginals del 2-3%, i de vegades reduïen l'"exactitud perfecta" en provocar errors en preguntes que el model hauria respost correctament d'una altra manera. El llindar d'escala de l'article pot haver canviat a mesura que els models han millorat en el raonament implícit — però el problema de la variabilitat, on el CoT introdueix una probabilitat no nul·la de descarrilar una resposta que d'altra manera seria correcta, persisteix.
Per què això és important per a la IA financera
Tres connexions amb l'agenda de Bean Labs:
Primer, el problema de seguretat de l'escriptura (write-back). Un agent amb prompting CoT que explica el seu raonament abans de realitzar una acció al llibre major proporciona una pista d'auditoria — però la traça de raonament no és una garantia de correcció. L'agent pot produir una explicació d'aspecte plausible per a una acció errònia. Això significa que mostrar als usuaris una traça de raonament pot crear una falsa confiança en lloc d'una auditabilitat genuïna.
Segon, l'asimetria en la detecció d'anomalies. Si el CoT augmenta la precisió però disminueix l'exhaustivitat en tasques de detecció d'esdeveniments rars, llavors per als casos d'ús de Beancount — trobar transaccions mal classificades, marcar entrades duplicades, detectar infraccions de polítiques — l'ús ingenu del CoT pot produir menys falses alarmes a costa de perdre problemes reals. Aquest és potencialment el compromís equivocat. Un agent financer que explica amb seguretat per què no ha marcat una cosa sospitosa és més perillós que un que marca coses en excés.
Tercer, la dependència de l'escala. Si els agents financers en producció s'executen en models més petits per raons de cost o latència, els guanys del CoT s'evaporen — i poden revertir-se. Qualsevol avaluació d'un agent financer basat en CoT s'ha de fer a la mateixa escala de model utilitzada en producció.
Què llegir a continuació
- "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — realitza mostres de múltiples camins de CoT i pren el vot de la majoria; aborda directament el problema de la variància que Wei et al. assenyalen.
- "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — mostra que "Pensem pas a pas" sense cap exemple també provoca el raonament; prova els límits del que el CoT realment necessita.
- "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — ataca directament la qüestió mecànica que l'article original deixa oberta.
