مباحثه چندعاملی مدلهای زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترلنشده و توهم جمعی
من در حال فکر کردن به تایید چندعاملی برای ایمنی بازنویسی (write-back) در Beancount بودهام — بهویژه اینکه آیا یک عامل بازبین (checker) میتواند پیش از نهایی شدن یک ثبت در دفتر کل، مباحثه معناداری با یک عامل نویسنده (writer) داشته باشد یا خیر. این سوال مرا به سمت مقاله بنیادی در مورد مباحثه چندعاملی کشاند که به عنوان یک مقاله در ICML 2024 ارائه شد و از آن زمان مجموعهای مفید از کارهای تکمیلی انتقادی را به خود جذب کرده است.
مقاله
مقاله "بهبود واقعگرایی و استدلال در مدلهای زبانی از طریق مباحثه چندعاملی" توسط ییلون دو، شوآنگ لی، آنتونیو تورالبا، جاشوا بی. تننبام و ایگور مورداچ رویکردی را پیشنهاد میکند که آنها آن را "جامعه ذهنها" مینامند: چندین نمونه از مدلهای زبانی بزرگ هر کدام یک پاسخ اولیه تولید میکنند، سپس مجموعه کامل پاسخهای همتایان را میخوانند و پاسخ خود را در چندین مرحله بهروزرسانی میکنند. انتخاب کلیدی در طراحی این است که این رویکرد تنها به دسترسی جعبهسیاه به خروجیهای مدل نیاز دارد — بدون گرادیان، بدون تنظیم دقیق و بدون تغییر در معماری. آنها این روش را در شش سنجه آزمایش کردند: محاسبات، GSM8K، بهینگی حرکت شطرنج، واقعگرایی بیوگرافیک، MMLU و اعتبار حرکت شطرنج.
تنظیمی که آنها بیشترین نتایج را بر اساس آن گزارش کردهاند، ۳ عامل است که برای ۲ دور مباحثه میکنند. پیشفرض مفهومی این است که عدم توافق، عاملها را مجبور میکند تا استدلال خود را به وضوح بیان کنند، در حالی که همگرایی نشاندهنده اعتماد واقعی است و نه صرفاً یک سازگاری تصادفی.
ایدههای کلیدی
- در بخش محاسبات، مباحثه به دقت ۸۱.۸٪ در مقابل ۶۷.۰٪ برای تکعامل و ۷۲.۱٪ برای خودبازنگری تکعاملی رسید — یک افزایش ۱۴.۸ واحدی نسبت به خط پایه.
- در GSM8K (ریاضیات دوره ابتدایی)، ۸۵.۰٪ در مقابل ۷۷.۰٪ تکعامل و ۷۵.۰٪ با خودبازنگری.
- در MMLU (۱۰۰ سوال توزیع شده در حوزههای موضوعی مختلف)، ۷۱.۱٪ در مقابل ۶۳.۹٪ تکعامل و ۵۷.۷٪ با خودبازنگری.
- در واقعگرایی بیوگرافیک، ۷۳.۸٪ در مقابل ۶۶.۰٪ برای تکعامل.
- مباحثه بینمدلی (ChatGPT + Bard روی ۲۰ مسئله GSM8K) ۱۷ مورد از ۲۰ مورد را حل کرد، در حالی که هر مدل به تنهایی ۱۱ تا ۱۴ مورد را حل کرده بود — این چشمگیرترین نتیجه در مقاله است زیرا نشان میدهد عاملهای ناهمگن خطاهای یکدیگر را اصلاح میکنند.
- عملکرد با افزایش تعداد عاملها و تعداد دورها تا ۴ دور مقیاسبندی شد و پس از آن بازدهی نزولی داشت. پرامپتهای "طولانی" که صراحتاً عاملها را تشویق میکردند قبل از رسیدن به اجماع تامل کنند، به طور مداوم بهتر از پرامپتهای کوتاه عمل کردند.
چه چیزی پابرجا میماند — و چه چیزی نه
دستاوردها واقعی هستند و پوشش سنجهها گستردهتر از اکثر مقالات حوزه پرامپتینگ است. من یافتههای جهتدار را باور دارم: داشتن چندین عامل که از یکدیگر انتقاد میکنند، نسبت به یک عامل واحد که بر خروجی خود بازنگری میکند، خطاهای بیشتری را شناسایی میکند.
مشکل اینجاست که چه چیزی کنترل نشده است. سه عامل که برای دو دور مباحثه میکنند، تقریباً به معنای ۶ برابر رایانش استنتاجی نسبت به یک فراخوانی واحد است، حتی بدون در نظر گرفتن کانتکست طولانیتر. مقاله هرگز یک خط پایه با بودجه برابر ارائه نمیدهد. خودسازگاری (Self-consistency) — یعنی رایگیری اکثریت روی چندین نمونه مستقل از تکعامل — یک مقایسه طبیعی است که مقاله تنها به اختصار به آن میپردازد. یک مقاله در سال ۲۰۲۵ (arXiv:2604.02460) دقیقاً این کنترل را روی سنجههای استدلال چندگامی در مدلهای Qwen3، DeepSeek-R1 و Gemini 2.5 با بودجه توکنهای استدلالی یکسان اجرا کرد و دریافت که "سیستمهای تکعاملی میتوانند با سیستمهای چندعاملی برابری کرده یا حتی از آنها پیشی بگیرند" مشروط بر اینکه رایانش برابر باشد. این یک چالش مستقیم برای ادعای اصلی مقاله است.
حالت شکست دیگری که مقاله به آن اذعان دارد اما به آن کمتوجهی میکند، چیزی است که M3MAD-Bench (arXiv:2601.02854) آن را "توهم جمعی" مینامد: در یک تحلیل دستی از ۱۰۰ شکست مباحثه، ۶۵٪ شامل عاملهایی بود که به جای اصلاح یکدیگر، پاسخهای اشتباه را متقابلاً تقویت میکردند. خود متن مقاله اشاره میکند که عاملها گاهی اوقات "با اطمینان تایید میکنند که پاسخشان درست است" حتی زمانی که بر روی یک پاسخ نادرست همگرا میشوند. وقتی همه عاملها توزیع آموزشی یکسانی دارند — در حالت همگن — احتمالاً نقاط کور یکسانی نیز خواهند داشت. در این صورت، مباحثه به جای شناسایی خطا، آن را تقویت میکند.
یافته مرتبط دیگری از همان مقاله: "همرنگی نادرست" (Incorrect Conformity) سهم قابل توجهی از شکستها را به خود اختصاص میدهد — عاملی که پاسخ درست را دارد، پس از خواندن پاسخهای اشتباه همتایان، استدلال صحیح خود را رها میکند. این دقیقاً برعکس چیزی است که چارچوب مباحثه قرار است انجام دهد. این هشداری است که دینامیکهای متقاعدسازی در این حلقههای چندعاملی میتواند در هر دو جهت عمل کند.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
این معماری برای ایمنی بازنویسی در Beancount واقعاً جذاب است: نویسنده یک ورودی دفتر کل را پیشنهاد میدهد، بازبین در مورد آن بحث میکند و اجماع باعث ثبت نهایی (commit) میشود. تحلیل ریسک بسته به آنچه مینویسید تغییر میکند. برای یک هزینه خرید روزمره، هزینه یک دور مباحثه ارزشش را ندارد. اما برای یک ثبت روزنامه پایان سال مالیاتی یا یک انتقال بینشرکتی، داشتن یک عامل دوم برای بررسی دقیق کدهای حساب و مبالغ قبل از تایید نهایی، منطقی است.
اما "توهم جمعی" به ویژه برای حسابداری خطرناک است. اگر هر دو عامل نویسنده و بازبین باور نادرست مشابهی در مورد نحوه دستهبندی یک کسر مالیاتی خاص تحت قوانین یک حوزه قضایی داشته باشند، مباحثه به جای علامتگذاری خطا، آن را تایید میکند. نتیجه بینمدلی خود مقاله به راه حل اشاره دارد: عوامل ناهمگن — مدلهای مختلف، دستورات سیستم متفاوت، یا عاملی که بر مستندات خارجی تکیه دارد — احتمال بیشتری دارد که اختلافات واقعی را آشکار کنند. M3MAD-Bench تایید میکند که "مباحثه ناهمگن مشارکتی" به طور قابل توجهی بر تنظیمات همگن برتری دارد.
چندبرابر شدن رایانش نیز در مقیاس تولید اهمیت دارد. ده ویرایش دفتر کل در هر نشست × ۳ عامل × ۲ دور = ۶۰ فراخوانی LLM. این برای ثبتهای حساس و با ریسک بالا پایدار است، اما نه برای وارد کردن تراکنشهای روتین. طراحی درست احتمالاً یک رویکرد لایهبندی شده است: مسیر سریع تکعاملی برای ورودیهای خوشساختار، و فراخوانی مباحثه تنها زمانی که نویسنده ابراز عدم قطعیت میکند یا زمانی که ورودی بر یک کلاس حساب با حساسیت بالا (بدهیهای مالیاتی، سود انباشته، انتقالات بینشرکتی) تاثیر میگذارد.
برای مطالعه بیشتر
- arXiv:2604.02460 — "برتری تکعاملها بر سیستمهای چندعاملی در استدلال چندگامی با بودجه توکن استدلالی برابر": شفافترین چالش منتشر شده علیه مزایای رایانشی ادعا شده برای مباحثه.
- arXiv:2601.02854 — M3MAD-Bench: ارزیابی در مقیاس بزرگ مباحثه در ۹ مدل و ۱۳ مجموعه داده، همراه با طبقهبندی شکستهای توهم جمعی.
- arXiv:2406.09187 — GuardAgent: عاملی محافظ که سیاستهای امنیتی را به کد قابل اجرا ترجمه میکند؛ رویکردی مستقیمتر به ایمنی بازنویسی نسبت به اجماع مبتنی بر مباحثه.
