Ir al contenido principal

ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

ReAct (Yao et al., ICLR 2023) es el artículo detrás del bucle de razonamiento y luego acción que la mayoría de los agentes financieros modernos utilizan ahora como estructura predeterminada. Lo he estado posponiendo porque parece infraestructura —el tipo de cosa que todo el mundo ya conoce— pero después de pasar tiempo con la escritura autónoma en libros de contabilidad, quería entender los modos de falla en la fuente, no a partir del folclore derivado.

El artículo

2026-04-17-react-synergizing-reasoning-and-acting-in-language-models

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan y Yuan Cao proponen una idea engañosamente simple: en lugar de pedirle a un modelo de lenguaje que razone (cadena de pensamiento) o actúe (invoque herramientas), dejar que haga ambas cosas en un flujo entrelazado. Cada paso en la trayectoria es un Pensamiento (razonamiento libre sobre qué hacer a continuación) o un par Acción/Observación (una acción y su observación del entorno). La afirmación es que este entrelazado es sinérgico: el razonamiento da forma a qué acciones tomar, y las observaciones reformulan el razonamiento.

Prueban esto en cuatro benchmarks: HotpotQA y Fever (QA intensivo en conocimiento y verificación de hechos, usando una API de búsqueda de Wikipedia como espacio de acción), y ALFWorld y WebShop (entornos de comercio electrónico encarnados y simulados que requieren toma de decisiones en múltiples pasos). Todos los experimentos utilizan PaLM-540B y GPT-3 (text-davinci-002) bajo prompting de pocos disparos (few-shot) con tan solo uno o dos ejemplos en contexto.

Ideas clave

  • En ALFWorld, ReAct supera a las líneas base de aprendizaje por imitación y aprendizaje por refuerzo por 34 puntos porcentuales absolutos en la tasa de éxito de la tarea; en WebShop, la ganancia es de 10 puntos porcentuales absolutos.
  • En Fever (verificación de hechos), ReAct supera a la cadena de pensamiento (CoT). En HotpotQA (QA de múltiples saltos), CoT en realidad vence a ReAct —el artículo reconoce esto directamente en lugar de ocultarlo—.
  • Los casos de falla se dividen en dos tipos: errores de razonamiento (el modelo juzga mal qué información tiene) y errores de búsqueda (un resultado de Wikipedia no informativo descarrila la cadena de razonamiento posterior). Estos son cualitativamente diferentes y requieren mitigaciones distintas.
  • El formato en sí es interpretable: un humano puede leer la traza de Pensamiento, encontrar el error y corregirlo editando una sola línea. Esto se destaca explícitamente como una propiedad de seguridad.
  • El ajuste fino de modelos más pequeños en trayectorias de ReAct les permite superar a modelos más grandes basados en prompts, lo que sugiere que el formato entrelazado es aprendible, no solo un truco de prompting.

Lo que se mantiene y lo que no

Los resultados de toma de decisiones interactivas (ALFWorld, WebShop) son la parte más sólida del artículo. La brecha sobre el aprendizaje por imitación puro es lo suficientemente grande como para que sea difícil atribuirla a la suerte con los hiperparámetros. Las trazas de razonamiento son genuinamente legibles, y el análisis de errores que distingue las fallas de búsqueda de las de razonamiento es honesto y útil.

Los resultados de QA intensivos en conocimiento son más débiles y el artículo lo sabe. Que ReAct pierda ante CoT en HotpotQA es un dato real: cuando se puede llegar a la respuesta encadenando el conocimiento interno del modelo, la fricción de las invocaciones de herramientas en realidad perjudica. El modelo a veces recupera un pasaje de Wikipedia que está tangencialmente relacionado, se ancla a él y luego produce un razonamiento peor que si se hubiera quedado en su "cabeza". El artículo llama a esto "distracción inducida por la búsqueda" y no se soluciona con la arquitectura —es un problema de calidad de recuperación disfrazado de problema de agente—.

También hay un problema fundamental de evaluación que el artículo hereda de los propios benchmarks: tanto ALFWorld como WebShop tienen espacios de acción relativamente limitados en comparación con lo que necesita un agente del mundo real. La mejora del 34% en ALFWorld es impresionante dentro del juego, pero ALFWorld es un entorno doméstico simulado con un vocabulario fijo y pequeño de acciones. Generalizar eso a, por ejemplo, un libro de contabilidad de Beancount con un esquema de transacciones abierto requiere una extrapolación que el artículo no justifica.

La configuración de pocos disparos es tanto una fortaleza como una debilidad. Uno o dos ejemplos en contexto es impresionante, pero también significa que los resultados son altamente sensibles a qué ejemplos se eligen. No encontré ablaciones sobre la selección de ejemplos en el artículo, lo cual habría sido útil.

Por qué esto es importante para la IA en finanzas

El problema de seguridad de la escritura (write-back) para agentes autónomos de Beancount es exactamente el régimen de falla que ReAct ilumina. Si un agente está razonando a través de una decisión de categorización de transacciones y recupera una entrada de libro ambigua —una que podría mapearse tanto a Expenses:Food como a Expenses:Entertainment— el patrón ReAct anclará el razonamiento posterior en cualquier interpretación que sugiera la primera entrada recuperada. Este es el análogo financiero de la "distracción inducida por la búsqueda" y no desaparece con un prompting más cuidadoso.

El argumento de la interpretabilidad importa aquí más de lo que el artículo probablemente pretendía. En contabilidad, un auditor no solo necesita la respuesta correcta, sino una cadena de razonamiento rastreable que pueda validar. Las trazas de Pensamiento de ReAct proporcionan esa cadena, y la observación de que un humano puede corregir una trayectoria editando un Pensamiento es directamente aplicable a un paso de revisión con humanos en el bucle antes de que cualquier asiento de diario se consigne en el libro de contabilidad.

Sin embargo, el modo de falla que más me preocupa son los errores compuestos en tareas de horizonte largo. Un trabajo de conciliación que afecte a cincuenta transacciones tiene muchas más oportunidades para que un Pensamiento salga mal que una búsqueda de Wikipedia de un solo salto. ReAct no proporciona ningún mecanismo nativo para que el agente detecte que se ha desviado; simplemente continúa. Reflexion (Shinn et al., arXiv:2303.11366) aborda esto añadiendo un paso de autoevaluación verbal, y ReAct + Reflexion resuelve 130 de 134 tareas de ALFWorld en comparación con ReAct solo. Ese delta indica cuánto valor hay en añadir un bucle de recuperación sobre la estructura básica de ReAct.

Qué leer a continuación

  • Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023, arXiv:2303.11366): añade un paso de autorreflexión que permite a un agente ReAct revisar su estrategia a través de episodios; la extensión más directa para agentes de libros contables que necesitan recuperarse de errores en mitad de la trayectoria.
  • FireAct: Toward Language Agent Fine-tuning (Chen et al., 2023, arXiv:2310.05915): ajusta modelos específicamente en trayectorias de ReAct a través de múltiples herramientas; relevante para entrenar un agente específico para Beancount en llamadas a herramientas de libros contables reales.
  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601): explora la búsqueda sobre rutas de razonamiento en lugar de comprometerse con una sola cadena; importa para casos donde la primera trayectoria de ReAct es errónea y necesita un rastreo sistemático hacia atrás.