CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes
Llegint CRITIC (Gou et al., ICLR 2024) mentre penso en què passa després que un agent financer cometi un error. Reflexion ens va dir que els agents poden aprendre dels fracassos al llarg dels episodis. CRITIC planteja una pregunta més aguda: pot un LLM detectar i corregir els seus propis errors dins d'una sola passada de generació i, si és així, què necessita realment per fer-ho?
L'article
CRITIC presenta un marc de treball en el qual un model de llenguatge genera una sortida inicial i després itera a través d'un bucle de verificar i corregir utilitzant eines externes: una API de cerca per a afirmacions factuals, un intèrpret de Python per a codi i aritmètica, i un classificador de toxicitat per a la moderació de continguts. El bucle s'executa durant un nombre fix d'iteracions (l'article informa de resultats efectius en unes tres correccions), produint una sortida refinada que els autors avaluen en respostes a preguntes de forma lliure (TriviaQA, AmbigNQ, HotpotQA), síntesi de programes matemàtics i reducció de toxicitat.
L'afirmació central no és que els LLM puguin autocorregir-se per si mateixos. És gairebé el contrari: el valor de CRITIC prové precisament de basar la crítica en un senyal extern que el model no pot falsificar. Sense l'API de cerca, les millores en QA es redueixen gairebé a zero o s'inverteixen. El marc funciona perquè l'eina diu al model quelcom que realment no sabia, no perquè el model es converteixi en un auditor intern fiable.
Idees clau
- Aplicat a ChatGPT, CRITIC aconsegueix millores de 7,7 en la puntuació F1 de mitjana en tres tasques de QA de domini obert i guanys absoluts de 7,0 punts percentuals en tres bancs de proves de raonament matemàtic.
- La reducció de la toxicitat és el resultat individual més sorprenent: una reducció del 79,2% en la probabilitat de toxicitat en el conjunt de dades avaluat.
- Eliminar l'API de cerca fa que el rendiment de QA s'estanqui o es degradi: la capacitat intrínseca d'autocrítica del model és gairebé inútil per a tasques factuals.
- El bucle convergeix ràpidament: tres rondes de correcció capturen la major part del guany, amb rendiments decreixents a partir d'aquí.
- El marc de treball és agnòstic respecte al model i no requereix ajustos fins (fine-tuning); funciona en API de caixa negra incloent tant Text-Davinci-003 com ChatGPT.
- CRITIC supera l'autoconsistència (votació majoritària sobre múltiples mostres) en la majoria de les tasques, la qual cosa és significatiu perquè l'autoconsistència no té cap cost d'eina per pas.
Què se sosté — i què no
El resultat empíric principal és sòlid: la retroacció d'eines externes millora significativament les sortides, i l'ablació eliminant l'API de cerca és demolidora per als defensors de l'autocorrecció ingènua. L'article també és honest sobre el mecanisme: els guanys provenen de l'eina, no d'una mena de capacitat metacognitiva emergent.
El que trobo poc explorat és la taxonomia dels modes d'error. Quan genera el model una crítica dolenta que l'allunya encara més de la resposta correcta? L'article informa del rendiment mitjà, però la variància entre tasques i tipus de preguntes seria enormement important per a la implementació. En un context financer, el pitjor resultat no és "cap millora", sinó una correcció que sembla plausible però que introdueix un nou error.
L'elecció de limitar-se a tres iteracions també es presenta com una conveniència pràctica més que com un criteri d'aturada basat en principis. Tres rondes poden funcionar per a TriviaQA on hi ha una resposta de referència (ground-truth) cap a la qual convergir. En un domini com la conciliació de llibres majors, on la resposta "correcta" requereix raonament sobre múltiples documents i coneixement del domini, no és obvi que tres crides a eines siguin suficients, ni que una API de cerca de propòsit general proporcioni el senyal de verificació adequat.
L'article complementari de l'ICLR 2024 "Large Language Models Cannot Self-Correct Reasoning Yet" (Huang et al., arXiv:2310.01798) confirma la pròpia troballa de CRITIC des de l'altra direcció: sense retroacció externa, l'autocorrecció degrada de manera fiable la precisió del raonament. Aquests dos articles junts formen una imatge coherent: la capacitat que la gent anomenava "autocorrecció" és principalment un refinament impulsat per la retroacció externa, i la distinció és important.
Per què això és important per a l'IA financera
El bucle de CRITIC es trasllada de manera natural al problema de la seguretat d'escriptura (write-back) en els agents de Beancount. Ara mateix, quan un agent LLM proposa un assentament al diari —per exemple, categoritzant una transacció o desglossant una despesa— no hi ha una manera basada en principis perquè verifiqui la seva pròpia sortida abans de confirmar-la al disc. L'arquitectura de CRITIC suggereix un patró concret: generar una entrada candidata i després executar una verificació contra una eina (una funció de comprovació de saldo, un motor de regles, un detector de duplicats) i utilitzar la sortida de l'eina per demanar una revisió abans que l'escriptura es faci efectiva.
El resultat de la toxicitat és una analogia que trobo útil de reformular: una reducció del 79,2% en les violacions de polítiques no prové del fet que el model interioritzi les regles, sinó d'un classificador que informa de les violacions al model. Per a un llibre major de Beancount, l'equivalent seria un verificador de regles que detecti transaccions comptabilitzades dues vegades o violacions de categories, i enviï aquest senyal a la passada de revisió de l'agent. L'agent no necessita saber independentment que les regles s'han incomplert; necessita el senyal de l'eina.
La limitació crítica per a les finances és la dependència de l'API de cerca. Els agents financers necessiten eines de verificació que siguin específiques del domini: comprovacions d'integritat del saldo de comptes, validadors del pla de comptes, consultes de regles fiscals. És poc probable que una cerca web genèrica detecti una despesa mal classificada. Construir la capa d'eines adequada per a la correcció a l'estil CRITIC en comptabilitat és on resideix el veritable treball d'enginyeria, i l'article no aborda en absolut el disseny d'eines específiques del domini.
Què llegir a continuació
- "Large Language Models Cannot Self-Correct Reasoning Yet" (Huang et al., 2023, arXiv:2310.01798) — l'argument empíric directe que l'autocorrecció intrínseca falla; s'ha de llegir juntament amb CRITIC, ja que triangulen el mateix mecanisme des de direccions oposades.
- "Tree of Thoughts: Deliberate Problem Solving with Large Language Models" (Yao et al., NeurIPS 2023, arXiv:2305.10601) — amplia la idea de crítica i correcció d'una sola via a un arbre de cerca sobre passos intermedis; rellevant per a la conciliació multietapa on l'agent ha d'explorar i retrocedir.
- "ToolBench: Facilitating Large Language Models in Mastering 16000+ Real-world APIs" (Qin et al., 2023, arXiv:2307.16789) — examina com els agents aprenen a seleccionar i encadenar crides a eines, que és el problema previ que CRITIC dona per fet.
