Els LLM encara no poden autocorregir el raonament — Conclusions de l'ICLR 2024 i implicacions per a la IA financera
Aquest article és el contrapunt directe a les línies de treball CRITIC i Reflexion que he estat llegint. Huang et al. (ICLR 2024) plantegen un argument senzill i incòmode: quan els LLM intenten autocorregir el seu raonament sense cap senyal extern, no milloren, sinó que empitjoren. Arribant just després de LOG-013 sobre CRITIC, on la crítica basada en eines realment ajudava, aquest article aclareix exactament quin tipus d'"autocorrecció" és real i quina és un artefacte de la configuració experimental.
L'article
"Large Language Models Cannot Self-Correct Reasoning Yet" de Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song i Denny Zhou (Google DeepMind / UIUC) es va publicar a l'ICLR 2024. L'afirmació central és estreta però devastadora per a una certa classe de dissenys d'agents: l'autocorrecció intrínseca —demanar a un LLM que revisi i corregeixi la seva pròpia resposta utilitzant només el seu propi criteri, sense cap senyal de veritat absoluta— degrada constantment el rendiment en els tests de raonament. Les millores reportades en diversos articles anteriors sobre autocorrecció, argumenten els autors, resulten d'un error metodològic subtil: aquells articles utilitzaven etiquetes d'oracle per decidir quan deixar de corregir, cosa que significa que el model només corregeix respostes que ja són incorrectes. Això no és autocorrecció; és filtratge guiat per un oracle.
Idees clau
- A GSM8K, GPT-4 comença amb una precisió del 95,5%. Després d'una ronda d'autocorrecció intrínseca baixa al 91,5%, i després d'una segona ronda al 89,0%. GPT-3.5 baixa del 75,9% al 74,7% en dues rondes.
- La caiguda és més dràstica a CommonSenseQA: GPT-3.5 cau del 75,8% al 38,1% després d'una sola ronda d'autocorrecció, recuperant-se lleugerament fins al 41,8% en la segona ronda, però encara catastròficament per sota de la línia base.
- L'anàlisi dels canvis de resposta a GSM8K mostra que el model canvia les respostes correctes per incorrectes més sovint que a l'inrevés. La direcció neta del canvi és perjudicial.
- L'autocorrecció guiada per oracle sí que millora les coses: GPT-4 a GSM8K amb etiquetes d'oracle passa del 95,5% al 97,5%, i GPT-3.5 a CommonSenseQA del 75,8% al 89,7%. Però això requereix saber quines respostes són incorrectes, cosa que no es pot saber en el desplegament real.
- El debat multi-agent, una altra idea popular, té un rendiment inferior a la simple autoconsistència quan s'iguala el pressupost d'inferència. Amb 9 respostes totals, l'autoconsistència arriba al 88,2% a GSM8K; el debat multi-agent només arriba al 83,0%.
- La generació restringida (CommonGen-Hard) sembla un èxit per a l'autocorrecció al principi (44% → 67%), però aquest guany s'evapora si simplement es millora el prompt inicial (81,8%). Quan el prompt inicial ja és bo, l'autocorrecció perjudica, baixant la precisió al 75,1%.
Què es manté i què no
La conclusió principal és sòlida: els números són els que són. Si demanes a GPT-4 que reexamini les seves respostes matemàtiques sense dir-li quines són incorrectes, les respostes empitjoren de mitjana. La intuïció que ofereix l'article també és encertada: els LLM no poden jutjar de manera fiable la correcció del seu propi raonament, de manera que quan decideixen canviar una resposta, estan endevinant, i s'equivoquen almenys tan sovint com encerten.
L'article és menys convincent en les seves pretensions de generalització. Analitza exclusivament tasques de raonament i coneixement. Hi ha dominis —estil d'escriptura, compliment de restriccions de format, reducció de la toxicitat— on es pot argumentar que la revisió iterativa sí que ajuda, i l'article passa per alt aquests aspectes. Els autors ho reconeixen de passada, assenyalant que "l'autocorrecció pot ser més efectiva per a tasques on l'avaluació és més senzilla", però no ho proven acuradament. L'experiment de generació restringida de CommonGen és suggeridor, però utilitzar un prompt inicial inadequat com a línia base i anomenar la millora resultant "autocorrecció" és el mateix error metodològic que l'article critica en altres treballs.
L'article tampoc aborda la qüestió de l'autocorrecció entrenada. Un seguiment del 2025 (SCoRe, ICLR 2025, arXiv:2409.12917) mostra que l'autocorrecció entrenada mitjançant RL sobre les pròpies sortides del model aconsegueix un +15,6% a MATH i un +9,1% a HumanEval —una millora intrínseca genuïna. Així, el títol "encara no poden autocorregir" ha envellit millor del que permetria una lectura més estricta; la interpretació correcta és "no es pot forçar l'autocorrecció mitjançant prompts", no "no poden aprendre a autocorregir-se".
Per què això és important per a la IA financera
La implicació per als agents que escriuen en el llibre major és concreta. Un agent que genera un assentament de Beancount i després es pregunta a si mateix "això sembla correcte?" i el revisa, no està obtenint una segona opinió, sinó que està introduint soroll. Les dades aquí diuen que si la primera resposta era incorrecta, la biorevisió té les mateixes probabilitats de corrompre una resposta correcta que d'arreglar-ne una d'incorrecta.
El que aquest article confirma és la restricció de disseny que vaig extreure de CRITIC: la validació pròpia sense un oracle extern no és fiable. Per a Beancount específicament, l'oracle extern està disponible i és econòmic: les assercions de saldo s'executen en mil·lisegons, els noms dels comptes es validen contra un pla de comptes conegut, els imports han de quadrar fins a l'últim cèntim. Una arquitectura d'agent que envia un assentament temptatiu, executa bean-check i retorna qualsevol error com a feedback estructurat és fonamentalment diferent d'una que demana al model que "revisi el seu assentament". La primera utilitza el motor del llibre major com a oracle. La segona depèn del mateix mecanisme de raonament que va produir l'error en primer lloc.
També hi ha una lliçó més subtil sobre el disseny de prompts. L'experiment CommonGen mostra que quan el prompt ja és precís i explícit, l'autocorrecció degrada el rendiment. Això significa que si invertim esforços a escriure prompts de processament de transaccions molt clars —que estableixin totes les regles de sintaxi de Beancount de manera explícita—, afegir-hi un bucle de revisió pròpia pot perjudicar activament la precisió. La arquitectura correcta probablement limita l'autocorrecció a quan falla una comprovació externa, no a cada generació.
Què llegir a continuació
- SCoRe: Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917, ICLR 2025) — Enfocament basat en RL que aconsegueix els primers guanys genuïns d'autocorrecció intrínseca; context necessari per entendre què descarta o no l'article actual.
- When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs (TACL 2024) — Taxonomia sistemàtica de quan funciona l'autocorrecció, distingint entre variants intrínseques, basades en l'entrenament i assistides per eines.
- Self-Refine: Iterative Refinement with Self-Feedback (NeurIPS 2023) — L'article principal que Huang et al. critiquen; llegir-los consecutivament aclareix exactament on està implícita la hipòtesi de l'etiqueta d'oracle.
