Salta al contingut principal

ReAct: Sinergia de raonament i acció en models de llenguatge

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

ReAct (Yao et al., ICLR 2023) és l'article que hi ha darrere del bucle de raonament i després acció que la majoria d'agents de finances moderns utilitzen ara com a estructura per defecte. Ho he anat posposant perquè sembla infraestructura —el tipus de cosa que tothom ja sap— però després de passar temps amb l'escriptura autònoma en el llibre major, volia entendre els modes de fallada en l'origen, no a partir del folklore derivat.

L'article

2026-04-17-react-synergizing-reasoning-and-acting-in-language-models

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan i Yuan Cao proposen una idea enganyosament simple: en comptes de demanar a un model de llenguatge que raoni (cadena de pensament) o actuï (invoqui eines), deixeu que faci totes dues coses en un flux entrellaçat. Cada pas de la trajectòria és un Pensament (raonament lliure sobre què fer a continuació) o un parell Acció/Obs (una acció i la seva observació de l'entorn). L'afirmació és que aquest entrellaçament és sinèrgic: el raonament defineix quines accions cal prendre, i les observacions remodelen el raonament.

Proven això en quatre línies base: HotpotQA i Fever (QA intensiu en coneixement i verificació de fets, utilitzant l'API de cerca de la Viquipèdia com a espai d'acció), i ALFWorld i WebShop (entorns de comerç electrònic encarnats i simulats que requereixen la presa de decisions en diversos passos). Tots els experiments utilitzen PaLM-540B i GPT-3 (text-davinci-002) sota prompting de pocs exemples (few-shot) amb només un o dos exemples en el context.

Idees clau

  • A ALFWorld, ReAct supera les línies base d'aprenentatge per imitació i d'aprenentatge per reforç en 34 punts percentuals absoluts en la taxa d'èxit de la tasca; a WebShop, el guany és de 10 punts percentuals absoluts.
  • A Fever (verificació de fets), ReAct supera la cadena de pensament (CoT). A HotpotQA (QA de salts múltiples), CoT realment guanya ReAct —l'article ho reconeix directament en lloc d'amagar-ho.
  • Els casos de fallada es divideixen en dos tipus: errors de raonament (el model jutja malament quina informació té) i errors de cerca (un resultat de la Viquipèdia poc informatiu desvia la cadena de raonament posterior). Aquests són qualitativament diferents i requereixen mitigacions diferents.
  • El format en si és interpretable: un humà pot llegir la traça del Pensament, trobar l'error i corregir-lo editant una sola línia. Això s'anomena explícitament com una propietat de seguretat.
  • L'ajust fi (fine-tuning) de models més petits en trajectòries ReAct els permet superar models més grans guiats per prompts, cosa que suggereix que el format entrellaçat és aprenentatge, no només un truc de prompting.

Què es manté — i què no

Els resultats de la presa de decisions interactiva (ALFWorld, WebShop) són la part més sòlida de l'article. La diferència respecte a l'aprenentatge per imitació pur és prou gran com perquè sigui difícil atribuir-la a la sort dels hiperparàmetres. Les traces de raonament són realment llegibles, i l'anàlisi d'errors que distingeix les fallades de cerca de les fallades de raonament és honesta i útil.

Els resultats de QA intensius en coneixement són més febles i l'article ho sap. El fet que ReAct perdi contra CoT a HotpotQA és un punt de dades real: quan es pot arribar a la resposta encadenant el coneixement intern del model, la fricció de les invocacions d'eines realment perjudica. El model a vegades recupera un passatge de la Viquipèdia que hi està relacionat tangencialment, s'hi ancora i després produeix un raonament pitjor que si s'hagués quedat només amb el seu coneixement intern. L'article anomena això "distracció induïda per la cerca" i no se soluciona amb l'arquitectura; és un problema de qualitat de recuperació disfressat de problema d'agent.

També hi ha un problema d'avaluació fonamental que l'article hereta dels propis benchmarks: tant ALFWorld com WebShop tenen espais d'acció relativament limitats en comparació amb el que necessita un agent del món real. La millora del 34% a ALFWorld és impressionant dins del joc, però ALFWorld és un entorn domèstic simulat amb un vocabulari fix i petit d'accions. Generalitzar d'això a, per exemple, un llibre major de Beancount amb un esquema de transaccions obert requereix una extrapolació que l'article no justifica.

La configuració de "few-shot" és alhora un punt fort i un punt feble. Un o dos exemples en el context és impressionant, però també significa que els resultats són molt sensibles als exemples escollits. No he trobat ablacions sobre la selecció d'exemples a l'article, cosa que hauria estat útil.

Per què això importa per a la IA en finances

El problema de seguretat en l'escriptura per als agents autònoms de Beancount és exactament el règim de fallada que ReAct il·lumina. Si un agent està raonant sobre una decisió de categorització de transaccions i recupera una entrada del llibre major ambigua —una que podria correspondre tant a Expenses:Food com a Expenses:Entertainment— el patró ReAct ancorarà el raonament posterior en qualsevol interpretació que suggereixi la primera entrada recuperada. Aquest és l'anàleg financer de la "distracció induïda per la cerca", i no desapareix fent prompts més acurats.

L'argument de la interpretabilitat importa més aquí del que l'article probablement pretenia. En comptabilitat, un auditor no només necessita la resposta correcta; necessita una cadena de raonament traçable que pugui validar. Les traces de Pensament de ReAct et donen aquesta cadena, i l'observació que un humà pot corregir una trajectòria editant un Pensament és directament aplicable a un pas de revisió amb intervenció humana abans que qualsevol assentament es confirmi al llibre major.

El mode de fallada que més m'importa, però, és el dels errors compostos en tasques d'horitzó llarg. Una tasca de conciliació que afecta cinquanta transaccions té moltes més oportunitats perquè un Pensament surti malament que una cerca de la Viquipèdia d'un sol salt. ReAct no proporciona cap mecanisme natiu perquè l'agent detecti que s'ha desviat; simplement continua. Reflexion (Shinn et al., arXiv:2303.11366) aborda això afegint un pas d'autoavaluació verbal, i ReAct + Reflexion completa 130 de 134 tasques d'ALFWorld en comparació amb només ReAct. Aquest increment ens diu quin valor té afegir un bucle de recuperació a sobre de l'estructura bàsica de ReAct.

Què llegir a continuació

  • Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023, arXiv:2303.11366) — afegeix un pas d'autoreflexió que permet a un agent ReAct revisar la seva estratègia a través dels episodis; l'extensió més directa per als agents de llibres majors que necessiten recuperar-se d'errors a meitat de la trajectòria.
  • FireAct: Toward Language Agent Fine-tuning (Chen et al., 2023, arXiv:2310.05915) — ajusta els models específicament en trajectòries ReAct a través de múltiples eines; rellevant per entrenar un agent específic per a Beancount en crides d'eines de llibres majors reals.
  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — explora la cerca sobre camins de raonament en lloc de comprometre's amb una sola cadena; important per als casos en què la primera trajectòria ReAct és incorrecta i necessita un retrocés sistemàtic.