Prejsť na hlavný obsah

Strom myšlienok: Premyslené riešenie problémov s vyhľadávaním pomocou LLM

· 7 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Potom, čo som posledné dva príspevky venoval agentom, ktorí sa sami opravujú prostredníctvom reflexie (Reflexion) a kritiky interaktívnej s nástrojmi (CRITIC), som chcel urobiť krok späť a pozrieť sa na štrukturálnejší prístup: čo ak sa agent v prvom rade nikdy nezaviaže k jedinej ceste uvažovania? Tree of Thoughts (ToT) od Yao et al. (NeurIPS 2023) navrhuje presne to — vyhľadávací rámec, v ktorom LLM skúma rozvetvený priestor medzikrokov uvažovania namiesto jedného lineárneho reťazca. Čítam to teraz, pretože to predstavuje najjasnejšiu formuláciu premysleného vyhľadávania pre uvažovanie LLM, a premyslené vyhľadávanie je presne to, čo potrebujete, keď jediný nesprávny medzikrok vo finančnom výpočte môže ticho poškodiť všetko ostatné v poradí.

Odborný článok

2026-04-27-tree-of-thoughts-deliberate-problem-solving

Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao a Karthik Narasimhan uvádzajú Tree of Thoughts ako zovšeobecnenie promptovania reťazcom myšlienok (chain-of-thought prompting). Kľúčovým krokom je považovať stredné kroky uvažovania za „myšlienky“ — koherentné textové jednotky, ktoré možno nezávisle vyhodnotiť — a usporiadať ich do stromu namiesto reťazca. V každom uzle model vygeneruje viacero kandidátskych myšlienok, každú vyhodnotí (prostredníctvom samostatného volania LLM, ktoré skóruje stavy ako „isté / možno / nemožné“) a potom použije štandardný vyhľadávací algoritmus (BFS alebo DFS) na prechod stromom. Ak vetva vyzerá slepá, model ju môže orezať alebo sa vrátiť späť (backtracking) — niečo, čo CoT ani CoT-SC nedokážu.

Článok vyhodnocuje tri úlohy: Hra 24 (skombinujte štyri čísla tak, aby ste dosiahli 24 pomocou aritmetiky), Kreatívne písanie (vytvorte koherentnú pasáž s použitím štyroch náhodných koncov viet) a Mini krížovky (vyriešte krížovku 5 × 5). Všetky tri si vyžadujú uvažovanie, ktoré môže profitovať z prieskumu a spätného vyhľadávania, čo je presne prostredie, pre ktoré to autori navrhli.

Kľúčové myšlienky

  • V Hre 24 dosahuje ToT so šírkou lúča b=5 74 % úspešnosť, oproti 4 % pri GPT-4 so štandardným CoT a 9 % pri CoT-SC so 100 vzorkami. Ten rozdiel je zarážajúci.
  • GPT-3.5 + ToT dosahuje pri rovnakej úlohe iba 19 %; prínos metódy je vysoko závislý od modelu. Kvalita generovania myšlienok v GPT-4 je to, čo poháňa väčšinu zisku — generovanie GPT-4 + hodnotenie GPT-3.5 dosahuje 64 %, zatiaľ čo generovanie GPT-3.5 + hodnotenie GPT-4 dosahuje iba 31 %.
  • Pri Kreatívnom písaní dosahuje ToT skóre 7,56 oproti 6,93 pri CoT na stupnici koherencie GPT-4 a ľudskí hodnotitelia uprednostňujú výstupy ToT v 41/100 prípadoch oproti 21/100 pri CoT.
  • Mini krížovky: ToT dosahuje 60 % presnosť na úrovni slov (CoT: 40,6 %, IO: 15,6 %), ale vyrieši iba 4 z 20 celých hier (20 %). Priepasť medzi úspešnosťou na úrovni slov a na úrovni hry odhaľuje, že aj so spätným vyhľadávaním zostáva uspokojenie globálnych obmedzení náročné.
  • Samotný krok vyhodnotenia je volaním LLM. Pri krížovkách článok poznamenáva, že hodnotitelia niekedy považujú správne čiastočné stavy za „nemožné“ kvôli neznámej slovnej zásobe — čo je kumulatívny chybový režim, kde chyby hodnotiteľa otrávia vyhľadávanie.
  • Náklady na výpočet: ToT stojí približne 0,74 USD na prípad v Hre 24 oproti 0,47 USD pri CoT s najlepším zo 100. Samotní autori upozorňujú, že pre úlohy, ktoré GPT-4 už zvláda dobre, réžia za to nestojí.

Čo obstojí — a čo nie

Hlavný výsledok — že vyhľadávanie v strome cez stredné myšlienky masívne prekonáva sekvenčné CoT pri úlohách vyžadujúcich spätné vyhľadávanie — je skutočný a reprodukovateľný. Rozdiel 74 % oproti 4 % v Hre 24 nie je šum. Vysvetlenie je mechanicky podložené: jediná zlá medzirovnica v CoT pošle zvyšok reťazca do priepasti, zatiaľ tag ToT môže túto vetvu orezať a skúsiť iný rozklad.

Čo považujem za menej presvedčivé, je tvrdenie o zovšeobecniteľnosti. Všetky tri hodnotiace úlohy sú relatívne syntetické: matematická hádanka, zadanie pre kreatívne písanie so štrukturálnymi obmedzeniami a slovná hra. Žiadna z nich sa nepodobá na otvorené, nejednoznačné problémy, ktoré sa objavujú v produkčných finančných pracovných postupoch. Autori tiež testujú iba na GPT-4 (a GPT-3.5 ako ablačnú štúdiu), takže nevieme, ako ToT funguje s menšími alebo doladenými modelmi — a číslo 19 % pre GPT-3.5 naznačuje, že odpoveď je „nie veľmi dobre“.

Zlyhanie pri krížovkách na úrovni hry (20 % napriek 60 % presnosti slov) poukazuje na hlbší problém: ToT je lokálne vyhľadávanie vedené lokálnym hodnotiteľom. Neudržiava si model globálnych obmedzení, čo je presne to, čo potrebujete pre problémy, kde sú interakcie čiastkových riešení husté. Nadväzujúci článok Graph of Thoughts (Besta et al., AAAI 2024) explicitne uvádza túto kritiku a demonštruje 62 % zlepšenie kvality oproti ToT pri úlohách triedenia, pričom znižuje náklady o viac ako 31 % — tým, že umožňuje myšlienkam spájať sa a vytvárať cykly, namiesto toho, aby boli obmedzené na strom.

Napokon, v praxi záleží na štruktúre nákladov. Pri b=5 s opakovanými volaniami hodnotiteľa je ToT zhruba 15–20× drahšie na volania API než jeden prechod CoT. Pre aplikácie citlivé na latenciu alebo náklady to nie je triviálne prijateľné.

Prečo na tom záleží pre finančnú AI

Úprimná odpoveď znie: ToT záleží najviac pre úzky výsek problémového priestoru Beancount, ale tento výsek je reálny.

Typická finančná úloha, kde chcem spätné vyhľadávanie (backtracking), je viacstupňová klasifikácia účtov pri nejednoznačných transakciách. Keď LLM mapuje importovaný bankový výpis do účtového rozvrhu, jedno nesprávne priradenie na začiatku reťazca (povedzme, spracovanie čerpania úveru ako príjmu) môže o niekoľko krokov neskôr vyústiť do chybnej kontroly zostatku. V agentovi CoT model v čase, keď zostatok nesedí, nemá žiadny mechanizmus na prehodnotenie pôvodnej klasifikácie. Agent ToT by sa mohol vrátiť k danému uzlu a skúsiť namiesto toho Liabilities:Loans.

Podobne daňová optimalizácia v rámci celého fiškálneho roka je skutočným problémom vyhľadávania v strome: položková kategorizácia oproti štandardnému odpočtu, načasovanie realizácie kapitálových ziskov, zoskupovanie charitatívnych príspevkov. Tieto rozhodnutia interagujú nelineárne a pred prijatím záväzku musíte vyhodnotiť viacero vetiev. Rámec BFS/DFS v ToT prirodzene mapuje túto štruktúru.

S čím ToT nepomáha, je dominantný prípad v Beancount: rutinné zadávanie transakcií a párovanie. Pre transakciu, ktorá má v účtovnej knihe jasný protipól, je CoT + PAL (presun aritmetiky na interpret kódov) rýchlejší, lacnejší a už teraz dostatočne presný. Používať ToT na klasifikáciu expenses:groceries je ako ísť na muchu s kanónom.

Naliehavejším problémom pre bezpečnosť zápisu je spoľahlivosť hodnotiteľa. Ak je hodnotiteľ stavu tiež LLM, môže sa mýliť — a nesprávne vyhodnotenia nielen spomaľujú vyhľadávanie, ale orezávajú správne cesty. Akýkoľvek produkčný finančný agent využívajúci ToT by potreboval externé orákulum (kontrolu zostatku, validátor schémy, pravidlový engine), ktoré by slúžilo ako hodnotiteľ, nie ďalšie volanie LLM.

Čo si prečítať ďalej

  • Graph of Thoughts: Solving Elaborate Problems with Large Language Models (Besta et al., AAAI 2024) — arXiv:2308.09687. Rozširuje ToT zo stromov na ľubovoľné grafy, čím umožňuje spájanie myšlienok a spätnú väzbu. Tvrdenie o znížení nákladov (>31 %) je priamo relevantné, ak chcete uvažovanie založené na vyhľadávaní bez réžie ToT.
  • Large Language Models Cannot Self-Correct Reasoning Yet (Huang et al., ICLR 2024) — arXiv:2310.01798. Kritický protipól: bez externej spätnej väzby vnútorná sebakorekcia zhoršuje výkon uvažovania. To spochybňuje predpoklad, že hodnotiteľ založený na LLM v ToT je dostatočne spoľahlivý na to, aby viedol vyhľadávanie.
  • RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation (arXiv:2409.09584) — aplikuje MCTS namiesto BFS/DFS na vyhľadávanie myšlienok so spätnou väzbou z vykonávania ako externým orákulom. Prostredie generovania kódu je štrukturálne podobné zápisu do účtovnej knihy: máte overiteľnú pravdu (beží kód? prejde kontrola zostatku?), čo je presne miesto, kde simulácie Monte Carlo prinášajú hodnotu.