Ir al contenido principal

Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM

· 8 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Después de dedicar las últimas dos entradas a agentes que se autocorrigen mediante la reflexión (Reflexion) y la crítica interactiva con herramientas (CRITIC), quería dar un paso atrás y observar un enfoque más estructural: ¿qué pasaría si el agente nunca se comprometiera con un único camino de razonamiento en primer lugar? El Árbol de Pensamientos (ToT) de Yao et al. (NeurIPS 2023) propone exactamente eso: un marco de búsqueda donde el LLM explora un espacio ramificado de pasos de razonamiento intermedio en lugar de una cadena lineal. Lo leo ahora porque representa la formulación más clara de búsqueda deliberada para el razonamiento de LLM, y la búsqueda deliberada es lo que se necesita cuando un solo paso intermedio erróneo en un cálculo financiero puede corromper silenciosamente todo lo que sigue.

El artículo

2026-04-27-tree-of-thoughts-deliberate-problem-solving

Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao y Karthik Narasimhan introducen el Árbol de Pensamientos como una generalización del prompting de cadena de pensamiento. El movimiento clave es tratar los pasos de razonamiento intermedio como "pensamientos" (unidades de texto coherentes que pueden evaluarse de forma independiente) y organizarlos en un árbol en lugar de una cadena. En cada nodo, el modelo genera múltiples pensamientos candidatos, evalúa cada uno (a través de una llamada de LLM separada que califica los estados como "seguro / tal vez / imposible") y luego aplica un algoritmo de búsqueda estándar (BFS o DFS) para recorrer el árbol. Si una rama parece muerta, el modelo puede podarla o retroceder, algo que ni CoT ni CoT-SC pueden hacer.

El artículo evalúa tres tareas: el Juego del 24 (combinar cuatro números para llegar a 24 mediante aritmética), Escritura Creativa (producir un pasaje coherente utilizando cuatro finales de frase aleatorios) y Mini Crucigramas (resolver un crucigrama de 5×5). Las tres requieren un razonamiento que puede beneficiarse de la exploración y el retroceso, que es exactamente el escenario para el que los autores lo diseñaron.

Ideas clave

  • En el Juego del 24, ToT con un ancho de haz b=5 logra un 74% de éxito, frente al 4% de GPT-4 con CoT estándar y el 9% de CoT-SC con 100 muestras. Esa brecha es impactante.
  • GPT-3.5 + ToT alcanza solo el 19% en la misma tarea; el beneficio del método depende en gran medida del modelo. La calidad de la generación de pensamientos de GPT-4 es lo que impulsa la mayor parte de la ganancia: la generación de GPT-4 + la evaluación de GPT-3.5 logra un 64%, mientras que la generación de GPT-3.5 + la evaluación de GPT-4 logra solo un 31%.
  • Para la Escritura Creativa, ToT obtiene una puntuación de 7,56 frente al 6,93 de CoT en una escala de coherencia de GPT-4, y los anotadores humanos prefieren los resultados de ToT 41/100 veces frente a las 21/100 de CoT.
  • Mini Crucigramas: ToT logra una precisión a nivel de palabra del 60% (CoT: 40,6%, IO: 15,6%) pero solo resuelve 4 de 20 juegos completos (20%). La brecha entre el éxito a nivel de palabra y a nivel de juego revela que, incluso con retroceso, la satisfacción de restricciones globales sigue siendo difícil.
  • El paso de evaluación es en sí mismo una llamada al LLM. En los crucigramas, el artículo señala que los evaluadores a veces consideran "imposibles" estados parciales correctos debido a un vocabulario poco familiar, un modo de fallo compuesto donde los errores del evaluador envenenan la búsqueda.
  • Coste computacional: ToT cuesta aproximadamente 0,74 $ por caso en el Juego del 24 frente a 0,47 $ para CoT con lo mejor de 100. Los propios autores advierten que para tareas que GPT-4 ya maneja bien, la sobrecarga no merece la pena.

Qué se mantiene y qué no

El resultado principal —que la búsqueda en árbol sobre pensamientos intermedios supera masivamente al CoT secuencial en tareas que requieren retroceso— es real y reproducible. La brecha del 74% frente al 4% en el Juego del 24 no es ruido. La explicación es mecánicamente sólida: una sola ecuación intermedia errónea en CoT envía al resto de la cadena al precipicio, mientras que ToT puede podar esa rama e intentar una descomposición diferente.

Lo que encuentro menos convincente es la afirmación de generalización. Las tres tareas de evaluación son relativamente sintéticas: un rompecabezas matemático, una propuesta de escritura creativa con restricciones estructurales y un juego de palabras. Ninguna de ellas se asemeja a los problemas abiertos y ambiguos que aparecen en los flujos de trabajo de finanzas en producción. Los autores también evalúan solo en GPT-4 (y GPT-3.5 como ablación), por lo que no sabemos cómo se comporta ToT con modelos más pequeños o ajustados, y la cifra del 19% para GPT-3.5 sugiere que la respuesta es "no muy bien".

El fallo de los crucigramas a nivel de juego (20% a pesar del 60% de precisión de palabras) apunta a un problema más profundo: ToT es una búsqueda local guiada por un evaluador local. No mantiene un modelo de restricciones globales, que es exactamente lo que se necesita para problemas donde las interacciones entre subsoluciones son densas. El artículo posterior Grafo de Pensamientos (Besta et al., AAAI 2024) hace explícita esta crítica y demuestra una mejora de calidad del 62% sobre ToT en tareas de ordenación al tiempo que reduce el coste en más de un 31%, al permitir que los pensamientos se fusionen y formen ciclos en lugar de limitarse a un árbol.

Finalmente, la estructura de costes importa en la práctica. Con b=5 y llamadas repetidas al evaluador, ToT es aproximadamente entre 15 y 20 veces más caro en llamadas a la API que una sola pasada de CoT. Para aplicaciones sensibles a la latencia o al coste, esto no es trivialmente aceptable.

Por qué esto importa para la IA financiera

La respuesta honesta es: ToT importa más para una porción estrecha del espacio de problemas de Beancount, pero esa porción es real.

La tarea financiera canónica donde deseo retroceso es la clasificación de cuentas en varios pasos con transacciones ambiguas. Cuando un LLM está mapeando un extracto bancario importado a un plan de cuentas, una sola asignación errónea al principio de la cadena (por ejemplo, tratar un desembolso de préstamo como ingresos) puede desencadenar un error en la verificación de saldo varios pasos después. En un agente CoT, para cuando falla el saldo, el modelo no tiene ningún mecanismo para revisar la clasificación original. Un agente ToT podría retroceder a ese nodo e intentar Liabilities:Loans en su lugar.

Del mismo modo, la optimización fiscal a lo largo de un año fiscal completo es un problema de búsqueda en árbol genuino: detallar frente a tomar la deducción estándar, programar la realización de ganancias de capital, agrupar contribuciones caritativas. Estas decisiones interactúan de forma no lineal y es necesario evaluar múltiples ramas antes de comprometerse. El marco BFS/DFS de ToT se adapta naturalmente a esa estructura.

Con lo que ToT no ayuda es con el caso dominante en Beancount: la entrada y conciliación rutinaria de transacciones. Para una transacción que tiene una contrapartida clara en el libro mayor, CoT + PAL (delegar la aritmética a un intérprete de código) es más rápido, más barato y ya lo suficientemente preciso. Aplicar ToT a la clasificación de expenses:groceries es como usar un mazo para un chinche.

La preocupación más urgente para la seguridad de la escritura es el problema de la fiabilidad del evaluador. Si el evaluador de estado también es un LLM, puede equivocarse, y las evaluaciones erróneas no solo ralentizan la búsqueda, sino que podan caminos correctos. Cualquier agente financiero de producción que utilice ToT necesitaría un oráculo externo (una verificación de saldo, un validador de esquemas, un motor de reglas) que sirva como evaluador, no otra llamada de LLM.

Qué leer a continuación

  • Graph of Thoughts: Solving Elaborate Problems with Large Language Models (Besta et al., AAAI 2024) — arXiv:2308.09687. Extiende ToT de árboles a grafos arbitrarios, permitiendo la fusión de pensamientos y bucles de retroalimentación. La afirmación de reducción de costes (>31%) es directamente relevante si se desea un razonamiento basado en búsqueda sin la sobrecarga de ToT.
  • Large Language Models Cannot Self-Correct Reasoning Yet (Huang et al., ICLR 2024) — arXiv:2310.01798. Un contrapunto crítico: sin retroalimentación externa, la autocorrección intrínseca degrada el rendimiento del razonamiento. Esto desafía la suposición de que el evaluador basado en LLM de ToT es lo suficientemente fiable como para guiar la búsqueda.
  • RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation (arXiv:2409.09584) — aplica MCTS en lugar de BFS/DFS a la búsqueda de pensamientos, con retroalimentación de ejecución como oráculo externo. El entorno de generación de código es estructuralmente similar a la escritura en el libro mayor: se tiene una verdad fundamental verificable (¿se ejecuta el código? ¿pasa la verificación de saldo?), que es exactamente donde los despliegues de Monte Carlo aportan valor.