LATS: Language Agent Tree Search — Raonament, acció i planificació en un sol framework
He estat pensant en què ve després de Tree of Thoughts: si es pot cercar en els passos de raonament, per què no cercar també en les accions? Això és exactament el que fa LATS (Language Agent Tree Search), i per això l'estic llegint ara. L'article d'Andy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang i Yu-Xiong Wang (ICML 2024, arXiv:2310.04406) és la síntesi més clara fins ara de raonament, acció i planificació en un únic framework d'agents, i els resultats són realment difícils d'ignorar.
L'article
El problema central que aborda LATS és una bretxa estructural en els treballs previs sobre agents. ReAct entrellaça raonament i acció, però no té cap mecanisme per retrocedir i provar un camí diferent quan una trajectòria surt malament. Tree of Thoughts permet ramificar els passos de raonament, però opera sobre el coneixement intern del model de llenguatge (LM); no pot cridar eines ni rebre feedback extern dins de la cerca. Reflexion afegeix l'autocorrecció verbal, però el seu bucle de reintent lineal significa que es compromet amb una nova trajectòria sense explorar alternatives. LATS fusiona totes tres idees amb una estructura de cerca en arbre de Monte Carlo (MCTS) adequada, permetent als agents LLM explorar múltiples branques, rebre feedback ambiental real i retrocedir quan un camí falla.
La maquinària tècnica és un bucle MCTS de sis passos: Selecció (triar el següent node a explorar mitjançant la fórmula UCT), Expansió (mostrejar n accions candidates del LM), Avaluació (puntuar cada node amb una funció de valor híbrida), Simulació (executar fins a un estat terminal), Retropropagació (actualitzar els valors dels avantpassats) i Reflexió (en cas de fallada, generar un resum verbal del que ha anat malament i emmagatzemar-lo com a context). La funció de valor mereix atenció: V(s) = λ·LM(s) + (1−λ)·SC(s), on LM(s) és l'estimació del propi LM sobre la qualitat de la trajectòria després de rebre feedback ambiental, i SC(s) és una puntuació d'autoconsistència basada en la freqüència amb què es mostreja aquesta acció entre els nodes germans. No es tracta d'un model de recompensa entrenat: la funció de valor es basa completament en prompts.
Idees clau
- A HumanEval, GPT-4 + LATS aconsegueix un 92,7% de pass@1, enfront del 91,0% de GPT-4 + Reflexion i el 56,9% de GPT-3.5 + ReAct sol. GPT-3.5 + LATS puja fins al 83,8%.
- A HotPotQA, LATS (CoT + ReAct) arriba a una coincidència exacta de 0,71 enfront del 0,32 de la línia base ReAct, més que duplicant la precisió en el raonament de múltiples salts.
- A WebShop (navegació web + compres), LATS puntua 75,9 (taxa d'èxit del 38,0%) contra el 64,2 (35,0%) de Reflexion, una bretxa significativa en una tasca que requereix gestionar l'estat a través de moltes pàgines.
- Al Game of 24 (un trencaclosques de raonament pur), LATS arriba a una taxa d'èxit de 0,44 enfront del 0,20 de ToT, malgrat utilitzar el mateix motor GPT-4.
- Sorprenentment, LATS expandeix menys nodes per trobar una solució que ToT (66,65 vs 84,05 nodes de mitjana a HotPotQA amb k=50), i utilitza menys tokens (173.290 vs 210.215), tot i que en teoria sembla més costós.
Què se sosté i què no
Les xifres dels benchmarks són reals i el framework és conceptualment net. La formulació UCT ofereix un equilibri de principis entre exploració i explotació del qual manquen els enfocaments ad-hoc BFS/DFS a ToT. La integració del feedback ambiental extern en la funció de valor —en lloc d'una pura introspecció del LM— és el pas correcte, i els resultats ho demostren.
Dit això, hi ha una hipòtesi crítica enterrada en l'article que els autors reconeixen però no posen totalment a prova: LATS requereix la capacitat de revertir l'entorn a un estat anterior. Sense punts de control (checkpointing), no es pot ramificar l'arbre: un cop es pren una acció, t'hi compromets. Els autors assenyalen que per a tasques de LM això sovint és gestionable "copiant i enganxant l'entrada de text històrica", però per a entorns d'acció reals (bases de dades, sistemes de fitxers, APIs amb efectes secundaris), aquest és un requisit estricte que molts sistemes de producció no poden satisfer. Els resultats de WebShop, tot i ser millors que les línies base, mostren que en entorns complexos les autoreflexions tendeixen a tornar-se genèriques en lloc de dirigides: els agents poden quedar-se encallats repetint errors superficialment diferents però estructuralment idèntics. L'article ho esmenta però no proposa cap solució.
Tampoc hi ha cap ablació que aïlli la contribució de l'estructura MCTS enfront del disseny de la funció de valor. És plausible que un enfocament de ramificació més simple amb la mateixa funció de valor híbrida reduís gran part de la diferència, i els autors no ho proven directament.
Per què això és important per a la IA financera
Els llibres de comptabilitat de Beancount són un entorn gairebé ideal per a la cerca en arbre tipus LATS per una raó clau: cada llibre està recolzat per un repositori git. La reversió d'estat —el requisit difícil que fa que LATS sigui poc pràctic en molts entorns del món real— es satisfà trivialment mitjançant git checkout o git stash. Un agent de retroescriptura podria proposar assentaments comptables candidats a través de múltiples branques, avaluar-los segons les restriccions del balanç de situació (la funció de valor) i confirmar només el camí amb la puntuació més alta. Les branques fallides reben una reflexió verbal: "l'assentament registrat ha vulnerat l'invariant actiu = passiu + patrimoni net perquè el tipus de compte estava mal classificat".
El disseny de la funció de valor híbrida també és directament aplicable. Per a un agent de comptabilitat, LM(s) puntuaria un assentament proposat basant-se en l'ajust semàntic (sembla aquesta la categoria correcta?), mentre que SC(s) faria un seguiment de la consistència amb què l'agent classifica transaccions passades similars: una verificació d'autoconsistència natural arrelada en la pròpia història del llibre.
La hipòtesi de la reversió d'estat és l'únic punt on posaria matisos a l'analogia financera. Els llibres comptables reals sovint tenen efectes derivats: un assentament registrat activa una factura, que activa un flux de treball de pagament. En aquests casos, la hipòtesi de LATS es trenca. Per a Beancount específicament, on el llibre és un fitxer de text pla sota control de git i els canvis són locals abans de qualsevol activador derivat, la hipòtesi es manté, però aquest és un condicionant de disseny que val la pena mantenir explícit.
Què llegir a continuació
- Planificació basada en MCTS sense models d'entorn: "Reasoning with Language Model is Planning with World Model" (Hao et al., 2023, arXiv:2305.14992) — RAP, sobre el qual LATS es construeix directament i al qual supera.
- Fins a quin punt generalitza la funció de valor del LM? "Let's Verify Step by Step" (Lightman et al., 2023, arXiv:2305.20050) — models de recompensa de procés com a alternativa a les funcions de valor basades en prompts.
- Planificació segura de múltiples passos sota irreversibilitat: "Decision-Making with Language Models via Successive Prompting" (Creswell et al., 2023) — un enfocament de planificació més simple que evita el requisit de reversió d'estat.
