Salta al contingut principal

Reflexion: Agents de llenguatge que aprenen dels errors sense reentrenament

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

He estat pensant en què caldria per construir un agent de llibre major de Beancount que millori amb el temps sense ser reentrenat cada vegada que comet un error. L'article de Shinn et al. "Reflexion: Language Agents with Verbal Reinforcement Learning" (NeurIPS 2023) aborda directament aquesta qüestió, i la resposta és alhora prometedora i més limitada del que suggereixen les xifres dels titulars.

L'article

2026-04-25-reflexion-language-agents-verbal-reinforcement-learning

Reflexion (Shinn, Cassano, Berman, Gopinath, Narasimhan, Yao; NeurIPS 2023) proposa que, en lloc d'ajustar els pesos del model mitjançant un aprenentatge per reforç costós, es pot millorar un agent fent que escrigui la seva pròpia anàlisi d'errors en llenguatge natural. Després de cada intent, un model de Self-Reflection (auto-reflexió) llegeix la trajectòria i el senyal de recompensa, produeix una autòpsia verbal i l'afegeix a un buffer de memòria episòdica. En el següent intent, l'Actor llegeix les reflexions acumulades abans d'actuar. No es calcula cap gradient. No es fa cap ajust fi (fine-tuning) del model. L' "aprenentatge" viu completament a la finestra de context.

L'arquitectura de tres components —Actor, Evaluator, Self-Reflection— és prou modular per adaptar-se a diferents tipus de tasques. L'Evaluator pot ser un resultat binari d'una prova unitària, un jutge LLM o una heurística específica de la tasca. Aquesta flexibilitat és el que fa que l'article sigui interessant més enllà dels bancs de proves de programació.

Idees clau

  • En el pass@1 de HumanEval Python, Reflexion + GPT-4 arriba al 91%, per sobre del 80% de la línia base de GPT-4 — una bretxa real i significativa. A Leetcode Hard el salt és del 7,5% → 15%, la qual cosa és un progrés però també un recordatori de com de difícils continuen sent aquests problemes.
  • A AlfWorld (planificació domèstica basada en text), Reflexion resol 130/134 tasques després de 12 intents vs. 108/134 per a la línia base de ReAct — el resultat de presa de decisions més convincent de l'article.
  • A HotpotQA (preguntes i respostes de diversos salts), CoT + Reflexion passa del 61% al 75% de coincidència exacta en 100 preguntes de mostra.
  • A MBPP (un segon banc de proves de Python), Reflexion perjudica lleugerament el rendiment: 80,1% → 77,1%. L'article ho passa per alt.
  • A WebShop, Reflexion no ajuda. Els autors ho atribueixen al fet que la tasca requereix "diversitat i exploració significatives" — l'agent escriu reflexions poc útils que no es generalitzen a través de les cerques de productes.
  • La memòria està limitada a 1–3 experiències emmagatzemades. Això és pragmàtic donada la longitud del context, però significa que l'agent no pot acumular aprenentatge al llarg d'un desplegament prolongat.

Què es manté dempeus — i què no

L'afirmació central és sòlida: la reflexió verbal millora el rendiment en tasques amb un feedback clar i verificable. Si saps si el codi ha superat les proves unitàries, el mòdul de reflexió té una base concreta sobre la qual raonar. Els resultats d'AlfWorld i HumanEval són reals i significatius.

Però el fracàs a WebShop és instructiu i l'article el subestima una mica. La reflexió funciona quan l'avaluador pot produir un senyal nítid i executable. Quan el mode de fallada és "l'agent ha explorat la part equivocada d'un gran espai de cerca", dir-li que "provi termes de cerca diferents la propera vegada" no convergeix. Aquesta és una limitació estructural: el reforç verbal no és un substitut de les estratègies d'exploració.

Els experiments de programació també tenen una circularitat que els autors reconeixen al seu blog: l'agent genera les seves pròpies proves unitàries per avaluar el seu propi codi. Una suite de proves defectuosa produeix falsos positius. La xifra del 91% a HumanEval es manté perquè HumanEval proporciona proves de referència (ground-truth), però el bucle d'auto-avaluació de l'agent és menys fiable en problemes nous on no existeix un oracle extern.

La reproductibilitat és una preocupació real. Tots els resultats principals utilitzen GPT-4, i els experiments amb starchat-beta no mostren cap millora respecte a la línia base, cosa que significa que la tècnica està limitada per les capacitats del model. Els equips que utilitzin models més petits o de codi obert no haurien d'esperar els mateixos guanys.

Per què això és important per a la IA financera

El cas d'ús de Beancount té exactament la propietat que fa que Reflexion funcioni bé: un avaluador clar. Si un agent categoritza incorrectament una transacció, la comprovació del saldo del llibre major o un pas de conciliació poden produir un senyal binari — els llibres quadren o no. Aquesta és una superfície de feedback molt millor que la recompensa ambigua de la cerca de productes a WebShop.

Concretament, puc imaginar un agent d'escriptura de Beancount que, després d'un intent d'assentament fallit (compte no vàlid, moneda incorrecta, error d'asserció), generi una reflexió verbal: "He utilitzat Expenses:Meals però aquest compte requereix una subcategoria. La propera vegada comprovaré la jerarquia de comptes abans de fer l'assentament." Aquesta reflexió s'emmagatzema i es recupera en la següent transacció similar. L'agent acumula eficaçment una política específica de la sessió a partir dels seus propis errors.

El límit de memòria és el principal repte arquitectònic. Un buffer d'1–3 experiències està bé per a una sola sessió, però un agent de comptabilitat desplegat ha d'aprendre al llarg de milers de transaccions i setmanes d'operació. Estendre Reflexion a una memòria d'horitzó llarg —potser resumint o indexant les reflexions— és un problema obert. L'article no ho resol.

Què llegir a continuació

  • Language Agent Tree Search (LATS) (Zhou et al., arXiv:2310.04406; ICML 2024) — amplia Reflexion embolicant un cercador d'arbre Monte Carlo al voltant del bucle de reflexió i reintent, permetent que els agents explorin múltiples branques de raonament en lloc de comprometre's amb una sola trajectòria. Aconsegueix el 92,7% a HumanEval amb GPT-4.
  • Retroformer (Yao et al., arXiv:2308.02151; ICLR 2024) — en lloc de confiar en el mateix LLM per a l'auto-reflexió, Retroformer entrena un model retrospectiu lleuger separat mitjançant el gradient de política, fent que el procés de reflexió sigui aprenent entre tasques. Més fonamentat, però requereix un ajust fi.
  • Self-Reflection in LLM Agents: Effects on Problem-Solving Performance (arXiv:2405.06682, 2024) — un estudi empíric que investiga específicament quan i per què la reflexió ajuda, amb ablacions en diversos tipus de tasques. Útil per calibrar quan aplicar Reflexion vs. altres estratègies de correcció.