Преминете към основното съдържание

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

· 8 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

След като посветих последните две статии на агенти, които се коригират сами чрез рефлексия (Reflexion) и интерактивна критика чрез инструменти (CRITIC), исках да се върна крачка назад и да разгледам един по-структурен подход: какво ще стане, ако агентът изобщо никога не се обвързва с един-единствен път на разсъждение? „Дърво на мислите“ (Tree of Thoughts - ToT) от Yao et al. (NeurIPS 2023) предлага точно това — рамка за търсене, при която моделът изследва разклоняващо се пространство от междинни стъпки на разсъждение, вместо една линейна верига. Чета това сега, защото представлява най-ясната формулировка на съзнателно търсене за разсъждения с големи езикови модели (LLM), а съзнателното търсене е това, от което се нуждаете, когато една погрешна междинна стъпка във финансово изчисление може тихо да компрометира всичко след себе си.

Статията

2026-04-27-tree-of-thoughts-deliberate-problem-solving

Шуню Яо, Диан Ю, Джефри Джао, Ицхак Шафран, Томас Л. Грифитс, Юан Цао и Картик Нарасимхан представят „Дърво на мислите“ като обобщение на подтикването чрез верига от мисли (chain-of-thought prompting). Ключовият ход е да се третират междинните стъпки на разсъждение като „мисли“ — кохерентни текстови единици, които могат да бъдат оценявани независимо — и да се организират в дърво, а не във верига. Във всеки възел моделът генерира множество кандидат-мисли, оценява всяка една от тях (чрез отделно извикване на модела, което оценява състоянията като „сигурно / може би / невъзможно“) и след това прилага стандартен алгоритъм за търсене (BFS или DFS), за да премине през дървото. Ако даден клон изглежда задънена улица, моделът може да го подреже или да се върне назад — нещо, което нито CoT, нито CoT-SC могат да направят.

Статията прави оценка върху три задачи: Game of 24 (комбиниране на четири числа за достигане на 24 чрез аритметика), творческо писане (създаване на смислен пасаж с използване на четири произволни окончания на изречения) и Mini Crosswords (решаване на кръстословица 5×5). И трите изискват разсъждения, които могат да се възползват от изследване и връщане назад — точно средата, за която авторите са проектирали метода.

Ключови идеи

  • В Game of 24, ToT с ширина на лъча b=5 постига 74% успех, срещу 4% за GPT-4 със стандартен CoT и 9% за CoT-SC със 100 проби. Тази разлика е поразителна.
  • GPT-3.5 + ToT достига само 19% при същата задача; ползата от метода силно зависи от модела. Качеството на генериране на мисли на GPT-4 е това, което движи по-голямата част от печалбата — генериране с GPT-4 + оценка с GPT-3.5 постига 64%, докато генериране с GPT-3.5 + оценка с GPT-4 постига само 31%.
  • За творческо писане ToT получава оценка 7.56 срещу 6.93 за CoT по скалата за кохерентност на GPT-4, а човешките оценители предпочитат резултатите на ToT в 41/100 случая срещу 21/100 за CoT.
  • Mini Crosswords: ToT постига 60% точност на ниво дума (CoT: 40.6%, IO: 15.6%), но решава само 4 от 20 цели игри (20%). Пропастта между успеха на ниво дума и на ниво игра разкрива, че дори с връщане назад, удовлетворяването на глобалните ограничения остава трудно.
  • Самата стъпка на оценка е извикване на LLM. При кръстословиците в статията се отбелязва, че оценителите понякога считат правилните частични състояния за „невъзможни“ поради непознат речник — натрупващ се режим на отказ, при който грешките на оценителя отравят търсенето.
  • Изчислителна цена: ToT струва приблизително $0.74 на случай в Game of 24 срещу $0.47 за best-of-100 CoT. Самите автори посочват, че за задачи, с които GPT-4 вече се справя добре, допълнителните разходи не си заслужават.

Какво издържа проверката — и какво не

Основният резултат — че дървовидното търсене върху междинни мисли масово превъзхожда последователния CoT при задачи, изискващи връщане назад — е реален и възпроизводим. Разликата от 74% срещу 4% в Game of 24 не е случаен шум. Обяснението е механично издържано: едно лошо междинно уравнение в CoT изпраща останалата част от веригата в пропастта, докато ToT може да подреже този клон и да опита различно разлагане на проблема.

Това, което намирам за по-малко убедително, е твърдението за обобщаемост. И трите задачи за оценка са сравнително синтетични: математически пъзел, творческо писане със структурни ограничения и езикова игра. Нито една от тях не прилича на отворените, двусмислени проблеми, които се появяват в реалните финансови работни процеси. Авторите също така правят оценка само върху GPT-4 (и GPT-3.5 като аблация), така че не знаем как се представя ToT с по-малки или фино настроени модели — а цифрата от 19% за GPT-3.5 предполага, че отговорът е „не особено добре“.

Провалът на ниво игра при кръстословиците (20% въпреки 60% точност на думите) сочи към по-дълбок проблем: ToT е локално търсене, водено от локален оценител. Той не поддържа модел на глобални ограничения, който е точно това, от което се нуждаете за проблеми, където взаимодействията между подрешенията са плътни. Последващата статия „Граф на мислите“ (Graph of Thoughts, Besta et al., AAAI 2024) изразява тази критика изрично и демонстрира 62% подобрение на качеството спрямо ToT при задачи за сортиране, като същевременно намалява разходите с над 31% — чрез позволяване на мислите да се сливат и да образуват цикли, вместо да бъдат ограничени до дърво.

И накрая, структурата на разходите е от значение на практика. При b=5 с повтарящи се извиквания на оценителя, ToT е приблизително 15–20 пъти по-скъп в API извиквания от еднократно преминаване на CoT. За приложения, чувствителни към латентност или разходи, това не е тривиално приемливо.

Защо това е важно за финансовия ИИ

Честният отговор е: ToT е най-важен за тесен сегмент от проблемите в Beancount, но този сегмент е съвсем реален.

Каноничната финансова задача, при която искам връщане назад, е многостъпковата класификация на сметки при двусмислени транзакции. Когато един LLM съпоставя внесено банково извлечение със сметкоплан, едно погрешно присвояване в началото на веригата (например третиране на изплащане на заем като доход) може да каскадира в нарушена проверка на баланса няколко стъпки по-късно. В CoT агент, докато се стигне до грешката в баланса, моделът няма механизъм да се върне към първоначалната класификация. ToT агентът би могъл да се върне назад към този възел и да опита Liabilities:Loans вместо това.

По същия начин данъчната оптимизация за пълна фискална година е истински проблем за търсене в дърво: детайлизиране на разходите срещу стандартно приспадане, избор на момент за реализиране на капиталови печалби, групиране на благотворителни вноски. Тези решения взаимодействат нелинейно и трябва да оцените множество клонове, преди да се ангажирате. Рамката BFS/DFS на ToT се напасва естествено към тази структура.

Това, с което ToT не помага, е доминиращият случай в Beancount: рутинно въвеждане на транзакции и изравняване. За транзакция, която има ясно съответствие в леджъра, CoT + PAL (прехвърляне на аритметиката към кодов интерпретатор) е по-бързо, по-евтино и вече достатъчно точно. Използването на ToT за класификация на expenses:groceries е като да използвате боен чук върху кабърче.

По-неотложният проблем за безопасността при записване е надеждността на оценителя. Ако оценителят на състоянието също е LLM, той може да сгреши — а погрешните оценки не просто забавят търсенето, те подрязват правилните пътища. Всеки производствен финансов агент, използващ ToT, ще се нуждае от външен оракул (проверка на баланса, валидатор на схемата, машина за правила), който да служи като оценител, а не от друго извикване на LLM.

Какво да прочетете след това

  • Graph of Thoughts: Solving Elaborate Problems with Large Language Models (Besta et al., AAAI 2024) — arXiv:2308.09687. Разширява ToT от дървета до произволни графи, позволявайки сливане на мисли и цикли за обратна връзка. Твърдението за намаляване на разходите (>31%) е пряко уместно, ако искате разсъждения, базирани на търсене, без излишните разходи на ToT.
  • Large Language Models Cannot Self-Correct Reasoning Yet (Huang et al., ICLR 2024) — arXiv:2310.01798. Критична контрапункция: без външна обратна връзка, присъщата самокорекция влошава производителността на разсъжденията. Това оспорва предположението, че базираният на LLM оценител на ToT е достатъчно надежден, за да ръководи търсенето.
  • RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation (arXiv:2409.09584) — прилага MCTS вместо BFS/DFS за търсене на мисли, с обратна връзка от изпълнението като външен оракул. Настройката за генериране на код е структурно подобна на записването в счетоводния регистър: имате проверима истина (изпълнява ли се кодът? минава ли проверката на баланса?), което е точно мястото, където симулациите Монте Карло добавят стойност.