درخت افکار: حل مسئله آگاهانه با جستجوی مدلهای زبانی بزرگ
پس از اختصاص دو مطلب اخیر به عاملهایی که از طریق تامل (Reflexion) و نقد تعاملی با ابزار (CRITIC) خود-اصلاحی میکنند، میخواستم کمی به عقب برگردم و به یک رویکرد ساختاریتر نگاه کنم: چه میشود اگر عامل در وهله اول هرگز به یک مسیر استدلال واحد متعهد نشود؟ «درخت افکار» (Tree of Thoughts یا ToT) از یائو و همکاران (NeurIPS 2023) دقیقاً همین را پیشنهاد میکند — یک چارچوب جستجو که در آن مدل زبانی (LLM) به جای یک زنجیره خطی، فضای شاخهای از مراحل استدلال میانی را کاوش میکند. من اکنون آن را میخوانم زیرا شفافترین فرمولبندی جستجوی آگاهانه برای استدلال مدلهای زبانی بزرگ را نشان میدهد، و جستجوی آگاهانه چیزی است که شما زمانی به آن نیاز دارید که یک مرحله میانی اشتباه در یک محاسبه مالی بتواند بی-صدا تمام خروجیهای بعدی را خراب کند.
مقاله
شونیو یائو، دیان یو، جفری ژائو، ایزاک شافران، توماس ال. گریفیث، یوآن کائو و کارتیک ناراسیمهان، «درخت افکار» را به عنوان تعمیمی از پرامپتنویسی زنجیره افکار معرفی میکنند. حرکت کلیدی این است که مراحل استدلال میانی به عنوان «افکار» (واحدهای متنی منسجم که میتوانند بهطور مستقل ارزیابی شوند) در نظر گرفته شوند و به جای یک زنجیره، در یک درخت سازماندهی شوند. در هر گره، مدل چندین فکر کاندید تولید میکند، هر یک را ارزیابی میکند (از طریق یک فراخوانی جداگانه مدل زبانی که وضعیتها را به عنوان «مطمئن / شاید / غیرممکن» امتیازدهی میکند) و سپس یک الگوریتم جستجوی استاندارد (BFS یا DFS) را برای پیمایش درخت اعمال میکند. اگر شاخهای بنبست به نظر برسد، مدل میتواند آن را هرس کند یا به عقب بازگردد (Backtrack) — کاری که نه CoT و نه CoT-SC قادر به انجام آن نیستند.
این مقاله در سه تسک ارزیابی میشود: بازی ۲۴ (ترکیب چهار عدد برای رسیدن به ۲۴ با استفاده از محاسبات ریاضی)، نویسندگی خلاق (تولید یک متن منسجم با استفاده از چهار پایان جمله تصادفی) و مینی جدول کلمات متقاطع (حل یک جدول ۵×۵). هر سه مورد نیاز به استدلالی دارند که میتواند از کاوش و بازگشت به عقب بهره ببرد، که دقیقاً همان شرایطی است که نویسندگان برای آن طراحی کردهاند.
ایدههای کلیدی
- در بازی ۲۴، ToT با عرض پرتو (beam width) b=5 به ۷۴٪ موفقیت دست مییابد، در مقابل ۴٪ برای GPT-4 با CoT استاندارد و ۹٪ برای CoT-SC با ۱۰۰ نمونه. این شکاف خیرهکننده است.
- مدل GPT-3.5 + ToT در همین تسک تنها به ۱۹٪ میرسد؛ مزیت این روش به شدت به مدل وابسته است. کیفیت تولید فکر در GPT-4 است که بیشترِ بهبود را رقم میزند — ترکیب تولید GPT-4 + ارزیابی GPT-3.5 به ۶۴٪ میرسد، در حالی که تولید GPT-3.5 + ارزیابی GPT-4 تنها ۳۱٪ موفقیت دارد.
- برای نویسندگی خلاق، ToT در مقیاس انسجام GPT-4 امتیاز ۷.۵۶ را در مقابل ۶.۹۳ برای CoT کسب میکند و ارزیابهای انسانی خروجیهای ToT را در ۴۱ مورد از ۱۰۰ بار نسبت به ۲۱ مورد از ۱۰۰ برای CoT ترجیح میدهند.
- مینی جدول کلمات متقاطع: ToT به دقت ۶۰٪ در سطح کلمه میرسد (CoT: ۴۰.۶٪، IO: ۱۵.۶٪) اما تنها ۴ بازی کامل از ۲۰ بازی را حل میکند (۲۰٪). شکاف بین موفقیت در سطح کلمه و سطح بازی نشان میدهد که حتی با بازگشت به عقب، ارضای محدودیتهای سراسری (global constraint satisfaction) همچنان دشوار است.
- مرحله ارزیابی خود یک فراخوانی مدل زبانی است. در جدول کلمات، مقاله اشاره میکند که ارزیابها گاهی اوقات وضعیتهای جزئیِ صحیح را به دلیل واژگان ناآشنا «غیرممکن» قلمداد میکنند — یک حالت شکست مرکب که در آن اشتباهات ارزیاب، جستجو را مسموم میکند.
- هزینه محاسباتی: ToT در بازی ۲۴ تقریباً ۰.۷۴ دلار برای هر مورد هزینه دارد، در حالی که هزینه CoT (بهترین از ۱۰۰ مورد) ۰.۴۷ دلار است. خود نویسندگان اشاره میکنند که برای تسکهایی که GPT-4 در حال حاضر به خوبی از عهده آنها برمیآید، این سربار ارزشش را ندارد.