CRITIC: چرا خوداصلاحی مدلهای زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است
خواندن مقاله CRITIC (Gou و همکاران، ICLR 2024) مرا به این فکر واداشت که پس از اشتباه یک عامل مالی چه اتفاقی میافتد. روش Reflexion به ما آموخت که عاملها میتوانند از شکستهای خود در طول دورههای مختلف درس بگیرند. اما CRITIC پرسش دقیقتری را مطرح میکند: آیا یک مدل زبانی بزرگ (LLM) میتواند خطاهای خود را در یک مرحله تولید شناسایی و اصلاح کند؟ و اگر بله، واقعاً به چه چیزی برای انجام این کار نیاز دارد؟
مقاله
سیستم CRITIC چارچوبی را معرفی میکند که در آن یک مدل زبانی ابتدا یک خروجی اولیه تولید میکند، سپس از طریق یک حلقه «تایید و سپس اصلاح» با استفاده از ابزارهای خارجی پیمایش میکند؛ این ابزارها شامل یک API جستجو برای ادعاهای مبتنی بر واقعیت، یک مفسر پایتون برای کدنویسی و محاسبات، و یک طبقهبندیکننده سمیت برای نظارت بر محتوا است. این حلقه برای تعداد دفعات مشخصی اجرا میشود (مقاله نتایج موثری را در حدود سه مرحله اصلاح گزارش میدهد) و خروجی نهایی پالایششدهای تولید میکند که نویسندگان آن را در پاسخگویی به سوالات فرم آزاد (TriviaQA، AmbigNQ، HotpotQA)، سنتز برنامههای ریاضی و کاهش سمیت ارزیابی کردهاند.
ادعای اصلی این نیست که مدلهای زبانی بزرگ میتوانند به تنهایی خود را اصلاح کنند. در واقع موضوع تقریباً برعکس است: ارزش CRITIC دقیقاً از استوار کردن نقد بر یک سیگنال خارجی ناشی میشود که مدل نمیتواند آن را جعل کند. بدون API جستجو، بهبودهای بخش پاسخگویی به سوالات به نزدیکی صفر میرسد یا حتی معکوس میشود. این چارچوب به این دلیل کار میکند که ابزار چیزی را به مدل میگوید که واقعاً نمیدانسته است، نه به این دلیل که مدل به یک حسابرسِ خودکارِ قابل اعتماد تبدیل شده است.
ایدههای کلیدی
- سیستم CRITIC که بر روی ChatGPT اعمال شده، به بهبود میانگین ۷.۷ در نمره F1 در سه وظیفه پاسخگویی به سوالات دامنه آزاد و ۷.۰ واحد درصد رشد مطلق در سه بنچمارک استدلال ریاضی دست یافته است.
- کاهش سمیت برجستهترین نتیجه منفرد است: کاهش ۷۹.۲ درصدی در احتمال سمیت در مجموعه داده ارزیابی شده.
- حذف API جستجو باعث میشود عملکرد پاسخگویی به سوالات یا متوقف شود یا کاهش یابد؛ توانایی نقدِ خودِ ذاتی مدل برای وظایف مبتنی بر واقعیت تقریباً بیفایده است.
- حلقه به سرعت همگرا میشود: سه دور اصلاح، بخش عمدهای از دستاوردها را ثبت میکند و پس از آن بازدهی کاهش مییابد.
- این چارچوب مستقل از مدل است و نیازی به پیشتولید (Fine-tuning) ندارد؛ روی APIهای جعبهسیاه از جمله Text-Davinci-003 و ChatGPT کار میکند.
- سیستم CRITIC در اکثر وظایف از روش خودسازگاری (رایگیری اکثریت روی نمونههای متعدد) بهتر عمل میکند، که از این جهت حائز اهمیت است که خودسازگاری هزینه ابزار در هر مرحله را ندارد.