Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели
След като посветих последните две статии на агенти, които се коригират сами чрез рефлексия (Reflexion) и интерактивна критика чрез инструменти (CRITIC), исках да се върна крачка назад и да разгледам един по-структурен подход: какво ще стане, ако агентът изобщо никога не се обвързва с един-единствен път на разсъждение? „Дърво на мислите“ (Tree of Thoughts - ToT) от Yao et al. (NeurIPS 2023) предлага точно това — рамка за търсене, при която моделът изследва разклоняващо се пространство от междинни стъпки на разсъждение, вместо една линейна верига. Чета това сега, защото представлява най-ясната формулировка на съзнателно търсене за разсъждения с големи езикови модели (LLM), а съзнателното търсене е това, от което се нуждаете, когато една погрешна междинна стъпка във финансово изчисление може тихо да компрометира всичко след себе си.
Статията
Шуню Яо, Диан Ю, Джефри Джао, Ицхак Шафран, Томас Л. Грифитс, Юан Цао и Картик Нарасимхан представят „Дърво на мислите“ като обобщение на подтикването чрез верига от мисли (chain-of-thought prompting). Ключовият ход е да се третират междинните стъпки на разсъждение като „мисли“ — кохерентни текстови единици, които могат да бъдат оценявани независимо — и да се организират в дърво, а не във верига. Във всеки възел моделът генерира множество кандидат-мисли, оценява всяка една от тях (чрез отделно извикване на модела, което оценява състоянията като „сигурно / може би / невъзможно“) и след това прилага стандартен алгоритъм за търсене (BFS или DFS), за да премине през дървото. Ако даден клон изглежда задънена улица, моделът може да го подреже или да се върне назад — нещо, което нито CoT, нито CoT-SC могат да направят.
Статията прави оценка върху три задачи: Game of 24 (комбиниране на четири числа за достигане на 24 чрез аритметика), творческо писане (създаване на смислен пасаж с използване на четири произволни окончания на изречения) и Mini Crosswords (решаване на кръстословица 5×5). И трите изискват разсъждения, които могат да се възползват от изследване и връщане назад — точно средата, за която авторите са проектирали метода.
Ключови идеи
- В Game of 24, ToT с ширина на лъча b=5 постига 74% успех, срещу 4% за GPT-4 със стандартен CoT и 9% за CoT-SC със 100 проби. Тази разлика е поразителна.
- GPT-3.5 + ToT достига само 19% при същата задача; ползата от метода силно зависи от модела. Качеството на генериране на мисли на GPT-4 е това, което движи по-голямата част от печалбата — генериране с GPT-4 + оценка с GPT-3.5 постига 64%, докато генериране с GPT-3.5 + оценка с GPT-4 постига само 31%.
- За творческо писане ToT получава оценка 7.56 срещу 6.93 за CoT по скалата за кохерентност на GPT-4, а човешките оценители предпочитат резултатите на ToT в 41/100 случая срещу 21/100 за CoT.
- Mini Crosswords: ToT постига 60% точност на ниво дума (CoT: 40.6%, IO: 15.6%), но решава само 4 от 20 цели игри (20%). Пропастта между успеха на ниво дума и на ниво игра разкрива, че дори с връщане назад, удовлетворяването на глобалните ограничения остава трудно.
- Самата стъпка на оценка е извикване на LLM. При кръстословиците в статията се отбелязва, че оценителите понякога считат правилните частични състояния за „невъзможни“ поради непознат речник — натрупващ се режим на отказ, при който грешките на оценителя отравят търсенето.
- Изчислителна цена: ToT струва приблизително $0.74 на случай в Game of 24 срещу $0.47 за best-of-100 CoT. Самите автори посочват, че за задачи, с които GPT-4 вече се справя добре, допълнителните разходи не си заслужават.