Ir al contenido principal

LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

He estado pensando en qué sigue después del Árbol de Pensamientos: si se puede buscar sobre pasos de razonamiento, ¿por qué no buscar también sobre acciones? Esto es exactamente lo que hace LATS (Language Agent Tree Search), y es la razón por la que lo estoy leyendo ahora. El artículo de Andy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang y Yu-Xiong Wang (ICML 2024, arXiv:2310.04406) es la síntesis más clara hasta la fecha de razonamiento, acción y planificación en un solo marco de agentes, y los resultados son genuinamente difíciles de ignorar.

El artículo

2026-05-10-lats-language-agent-tree-search-reasoning-acting-planning

El problema central que aborda LATS es una brecha estructural en los trabajos previos sobre agentes. ReAct entrelaza el razonamiento y la acción, pero no tiene un mecanismo para retroceder e intentar un camino diferente cuando una trayectoria sale mal. El Árbol de Pensamientos permite ramificar los pasos de razonamiento, pero opera sobre el conocimiento interno del modelo de lenguaje (LM); no puede llamar a herramientas ni recibir retroalimentación externa dentro de la búsqueda. Reflexion añade la autocorrección verbal, pero su bucle de reintento lineal significa que se compromete con una nueva trayectoria sin explorar alternativas. LATS fusiona estas tres ideas con una estructura sólida de Búsqueda en Árbol de Monte Carlo (MCTS), permitiendo que los agentes LLM exploren múltiples ramas, reciban retroalimentación ambiental real y retrocedan cuando un camino falla.

La maquinaria técnica es un bucle MCTS de seis pasos: Selección (elegir el siguiente nodo a explorar mediante la fórmula UCT), Expansión (muestrear n acciones candidatas del LM), Evaluación (calificar cada nodo con una función de valor híbrida), Simulación (ejecutar hasta un estado terminal), Retropropagación (actualizar los valores de los ancestros) y Reflexión (en caso de fallo, generar un resumen verbal de lo que salió mal y almacenarlo como contexto). La función de valor merece atención: V(s) = λ·LM(s) + (1−λ)·SC(s), donde LM(s) es la propia estimación del LM sobre la calidad de la trayectoria después de recibir retroalimentación ambiental, y SC(s) es una puntuación de autoconsistencia basada en la frecuencia con la que se muestrea esa acción en los nodos hermanos. Este no es un modelo de recompensa entrenado; la función de valor se basa totalmente en prompts.

Ideas clave

  • En HumanEval, GPT-4 + LATS logra un 92,7% de pass@1, frente al 91,0% de GPT-4 + Reflexion y al 56,9% de GPT-3.5 + ReAct solo. GPT-3.5 + LATS salta al 83,8%.
  • En HotPotQA, LATS (CoT + ReAct) alcanza un 0,71 de coincidencia exacta frente al 0,32 de la línea base de ReAct, duplicando con creces la precisión en el razonamiento de múltiples saltos.
  • En WebShop (navegación web + compras), LATS obtiene una puntuación de 75,9 (tasa de éxito del 38,0%) frente a Reflexion con 64,2 (35,0%), una brecha significativa en una tarea que requiere gestionar el estado a través de muchas páginas.
  • En el Juego del 24 (un rompecabezas de razonamiento puro), LATS alcanza una tasa de éxito de 0,44 frente al 0,20 de ToT, a pesar de utilizar el mismo núcleo de GPT-4.
  • Sorprendentemente, LATS expande menos nodos para encontrar una solución que ToT (66,65 frente a 84,05 nodos promedio en HotPotQA con k=50) y utiliza menos tokens (173.290 frente a 210.215), aunque en teoría parezca más costoso.

Qué se sostiene y qué no

Las cifras de los puntos de referencia (benchmarks) son reales y el marco de trabajo es conceptualmente limpio. La formulación UCT proporciona un equilibrio principiado entre exploración y explotación del que carecen los enfoques ad-hoc BFS/DFS en ToT. La integración de la retroalimentación ambiental externa en la función de valor —en lugar de la pura introspección del LM— es el movimiento correcto, y los resultados lo demuestran.

Dicho esto, hay una suposición crítica enterrada en el artículo que los autores reconocen pero no ponen a prueba totalmente: LATS requiere la capacidad de revertir el entorno a un estado anterior. Sin puntos de control (checkpointing), no se puede ramificar el árbol; una vez que se toma una acción, el agente queda comprometido. Los autores señalan que para las tareas de LM esto suele ser manejable "copiando y pegando la entrada de texto histórica", pero para entornos de acción reales (bases de datos, sistemas de archivos, APIs con efectos secundarios), este es un requisito estricto que muchos sistemas de producción no pueden satisfacer. Los resultados de WebShop, aunque mejores que las líneas base, muestran que en entornos complejos las autorreflexiones tienden a volverse genéricas en lugar de específicas; los agentes pueden quedarse atascados repitiendo errores superficialmente diferentes pero estructuralmente idénticos. El artículo menciona esto, pero no ofrece una solución.

Tampoco hay una ablación que aísle la contribución de la estructura MCTS frente al diseño de la función de valor. Es plausible que un enfoque de ramificación más simple con la misma función de valor híbrida cerraría gran parte de la brecha, y los autores no prueban esto directamente.

Por qué esto importa para la IA en finanzas

Los libros de contabilidad de Beancount son un entorno casi ideal para la búsqueda en árbol al estilo LATS, por una razón fundamental: cada libro de contabilidad está respaldado por un repositorio git. La reversión de estado —el requisito estricto que hace que LATS sea poco práctico en muchos entornos del mundo real— se satisface trivialmente mediante git checkout o git stash. Un agente de escritura podría proponer asientos contables candidatos en múltiples ramas, evaluarlos frente a las restricciones del balance de situación (la función de valor) y confirmar solo el camino con la puntuación más alta. Las ramas fallidas reciben una reflexión verbal: "la entrada registrada violó el invariante activos = pasivos + patrimonio neto porque el tipo de cuenta fue mal clasificado".

El diseño de la función de valor híbrida también es aplicable directamente. Para un agente de contabilidad, LM(s) calificaría una entrada propuesta basándose en el ajuste semántico (¿parece esta la categoría correcta?), mientras que SC(s) rastrearía qué tan consistentemente el agente clasifica transacciones pasadas similares, una comprobación de autoconsistencia natural arraigada en la propia historia del libro contable.

La suposición de reversión de estado es el único punto donde yo cuestionaría la analogía financiera. Los libros de contabilidad reales suelen tener efectos en cascada: un asiento registrado activa una factura, que a su vez activa un flujo de trabajo de pago. En esos casos, la suposición de LATS se rompe. Específicamente para Beancount, donde el libro es un archivo de texto plano bajo control de git y los cambios son locales antes de cualquier activador posterior, la suposición se mantiene; pero esta es una restricción de diseño que vale la pena mantener explícita.

Qué leer a continuación

  • Planificación basada en MCTS sin modelos de entorno: "Reasoning with Language Model is Planning with World Model" (Hao et al., 2023, arXiv:2305.14992) — RAP, sobre el cual LATS se construye directamente y al cual supera.
  • ¿Qué tan bien generaliza la función de valor del LM? "Let's Verify Step by Step" (Lightman et al., 2023, arXiv:2305.20050) — modelos de recompensa de proceso como alternativa a las funciones de valor basadas en prompts.
  • Planificación segura de múltiples pasos bajo irreversibilidad: "Decision-Making with Language Models via Successive Prompting" (Creswell et al., 2023) — un enfoque de planificación más simple que evita el requisito de reversión de estado.