پرش به محتوای اصلی

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

من در حال فکر کردن به تایید چندعاملی برای ایمنی بازنویسی (write-back) در Beancount بوده‌ام — به‌ویژه اینکه آیا یک عامل بازبین (checker) می‌تواند پیش از نهایی شدن یک ثبت در دفتر کل، مباحثه معناداری با یک عامل نویسنده (writer) داشته باشد یا خیر. این سوال مرا به سمت مقاله بنیادی در مورد مباحثه چندعاملی کشاند که به عنوان یک مقاله در ICML 2024 ارائه شد و از آن زمان مجموعه‌ای مفید از کارهای تکمیلی انتقادی را به خود جذب کرده است.

مقاله

2026-05-24-multiagent-debate-factuality-reasoning-llms

مقاله "بهبود واقع‌گرایی و استدلال در مدل‌های زبانی از طریق مباحثه چندعاملی" توسط ییلون دو، شوآنگ لی، آنتونیو تورالبا، جاشوا بی. تننبام و ایگور مورداچ رویکردی را پیشنهاد می‌کند که آن‌ها آن را "جامعه ذهن‌ها" می‌نامند: چندین نمونه از مدل‌های زبانی بزرگ هر کدام یک پاسخ اولیه تولید می‌کنند، سپس مجموعه کامل پاسخ‌های همتایان را می‌خوانند و پاسخ خود را در چندین مرحله به‌روزرسانی می‌کنند. انتخاب کلیدی در طراحی این است که این رویکرد تنها به دسترسی جعبه‌سیاه به خروجی‌های مدل نیاز دارد — بدون گرادیان، بدون تنظیم دقیق و بدون تغییر در معماری. آن‌ها این روش را در شش سنجه آزمایش کردند: محاسبات، GSM8K، بهینگی حرکت شطرنج، واقع‌گرایی بیوگرافیک، MMLU و اعتبار حرکت شطرنج.

تنظیمی که آن‌ها بیشترین نتایج را بر اساس آن گزارش کرده‌اند، ۳ عامل است که برای ۲ دور مباحثه می‌کنند. پیش‌فرض مفهومی این است که عدم توافق، عامل‌ها را مجبور می‌کند تا استدلال خود را به وضوح بیان کنند، در حالی که همگرایی نشان‌دهنده اعتماد واقعی است و نه صرفاً یک سازگاری تصادفی.

ایده‌های کلیدی

  • در بخش محاسبات، مباحثه به دقت ۸۱.۸٪ در مقابل ۶۷.۰٪ برای تک‌عامل و ۷۲.۱٪ برای خودبازنگری تک‌عاملی رسید — یک افزایش ۱۴.۸ واحدی نسبت به خط پایه.
  • در GSM8K (ریاضیات دوره ابتدایی)، ۸۵.۰٪ در مقابل ۷۷.۰٪ تک‌عامل و ۷۵.۰٪ با خودبازنگری.
  • در MMLU (۱۰۰ سوال توزیع شده در حوزه‌های موضوعی مختلف)، ۷۱.۱٪ در مقابل ۶۳.۹٪ تک‌عامل و ۵۷.۷٪ با خودبازنگری.
  • در واقع‌گرایی بیوگرافیک، ۷۳.۸٪ در مقابل ۶۶.۰٪ برای تک‌عامل.
  • مباحثه بین‌مدلی (ChatGPT + Bard روی ۲۰ مسئله GSM8K) ۱۷ مورد از ۲۰ مورد را حل کرد، در حالی که هر مدل به تنهایی ۱۱ تا ۱۴ مورد را حل کرده بود — این چشمگیرترین نتیجه در مقاله است زیرا نشان می‌دهد عامل‌های ناهمگن خطاهای یکدیگر را اصلاح می‌کنند.
  • عملکرد با افزایش تعداد عامل‌ها و تعداد دورها تا ۴ دور مقیاس‌بندی شد و پس از آن بازدهی نزولی داشت. پرامپت‌های "طولانی" که صراحتاً عامل‌ها را تشویق می‌کردند قبل از رسیدن به اجماع تامل کنند، به طور مداوم بهتر از پرامپت‌های کوتاه عمل کردند.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

دستاوردها واقعی هستند و پوشش سنجه‌ها گسترده‌تر از اکثر مقالات حوزه پرامپتینگ است. من یافته‌های جهت‌دار را باور دارم: داشتن چندین عامل که از یکدیگر انتقاد می‌کنند، نسبت به یک عامل واحد که بر خروجی خود بازنگری می‌کند، خطاهای بیشتری را شناسایی می‌کند.

مشکل اینجاست که چه چیزی کنترل نشده است. سه عامل که برای دو دور مباحثه می‌کنند، تقریباً به معنای ۶ برابر رایانش استنتاجی نسبت به یک فراخوانی واحد است، حتی بدون در نظر گرفتن کانتکست طولانی‌تر. مقاله هرگز یک خط پایه با بودجه برابر ارائه نمی‌دهد. خودسازگاری (Self-consistency) — یعنی رای‌گیری اکثریت روی چندین نمونه مستقل از تک‌عامل — یک مقایسه طبیعی است که مقاله تنها به اختصار به آن می‌پردازد. یک مقاله در سال ۲۰۲۵ (arXiv:2604.02460) دقیقاً این کنترل را روی سنجه‌های استدلال چندگامی در مدل‌های Qwen3، DeepSeek-R1 و Gemini 2.5 با بودجه توکن‌های استدلالی یکسان اجرا کرد و دریافت که "سیستم‌های تک‌عاملی می‌توانند با سیستم‌های چندعاملی برابری کرده یا حتی از آن‌ها پیشی بگیرند" مشروط بر اینکه رایانش برابر باشد. این یک چالش مستقیم برای ادعای اصلی مقاله است.

حالت شکست دیگری که مقاله به آن اذعان دارد اما به آن کم‌توجهی می‌کند، چیزی است که M3MAD-Bench (arXiv:2601.02854) آن را "توهم جمعی" می‌نامد: در یک تحلیل دستی از ۱۰۰ شکست مباحثه، ۶۵٪ شامل عامل‌هایی بود که به جای اصلاح یکدیگر، پاسخ‌های اشتباه را متقابلاً تقویت می‌کردند. خود متن مقاله اشاره می‌کند که عامل‌ها گاهی اوقات "با اطمینان تایید می‌کنند که پاسخشان درست است" حتی زمانی که بر روی یک پاسخ نادرست همگرا می‌شوند. وقتی همه عامل‌ها توزیع آموزشی یکسانی دارند — در حالت همگن — احتمالاً نقاط کور یکسانی نیز خواهند داشت. در این صورت، مباحثه به جای شناسایی خطا، آن را تقویت می‌کند.

یافته مرتبط دیگری از همان مقاله: "هم‌رنگی نادرست" (Incorrect Conformity) سهم قابل توجهی از شکست‌ها را به خود اختصاص می‌دهد — عاملی که پاسخ درست را دارد، پس از خواندن پاسخ‌های اشتباه همتایان، استدلال صحیح خود را رها می‌کند. این دقیقاً برعکس چیزی است که چارچوب مباحثه قرار است انجام دهد. این هشداری است که دینامیک‌های متقاعدسازی در این حلقه‌های چندعاملی می‌تواند در هر دو جهت عمل کند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

این معماری برای ایمنی بازنویسی در Beancount واقعاً جذاب است: نویسنده یک ورودی دفتر کل را پیشنهاد می‌دهد، بازبین در مورد آن بحث می‌کند و اجماع باعث ثبت نهایی (commit) می‌شود. تحلیل ریسک بسته به آنچه می‌نویسید تغییر می‌کند. برای یک هزینه خرید روزمره، هزینه یک دور مباحثه ارزشش را ندارد. اما برای یک ثبت روزنامه پایان سال مالیاتی یا یک انتقال بین‌شرکتی، داشتن یک عامل دوم برای بررسی دقیق کدهای حساب و مبالغ قبل از تایید نهایی، منطقی است.

اما "توهم جمعی" به ویژه برای حسابداری خطرناک است. اگر هر دو عامل نویسنده و بازبین باور نادرست مشابهی در مورد نحوه دسته‌بندی یک کسر مالیاتی خاص تحت قوانین یک حوزه قضایی داشته باشند، مباحثه به جای علامت‌گذاری خطا، آن را تایید می‌کند. نتیجه بین‌مدلی خود مقاله به راه حل اشاره دارد: عوامل ناهمگن — مدل‌های مختلف، دستورات سیستم متفاوت، یا عاملی که بر مستندات خارجی تکیه دارد — احتمال بیشتری دارد که اختلافات واقعی را آشکار کنند. M3MAD-Bench تایید می‌کند که "مباحثه ناهمگن مشارکتی" به طور قابل توجهی بر تنظیمات همگن برتری دارد.

چندبرابر شدن رایانش نیز در مقیاس تولید اهمیت دارد. ده ویرایش دفتر کل در هر نشست × ۳ عامل × ۲ دور = ۶۰ فراخوانی LLM. این برای ثبت‌های حساس و با ریسک بالا پایدار است، اما نه برای وارد کردن تراکنش‌های روتین. طراحی درست احتمالاً یک رویکرد لایه‌بندی شده است: مسیر سریع تک‌عاملی برای ورودی‌های خوش‌ساختار، و فراخوانی مباحثه تنها زمانی که نویسنده ابراز عدم قطعیت می‌کند یا زمانی که ورودی بر یک کلاس حساب با حساسیت بالا (بدهی‌های مالیاتی، سود انباشته، انتقالات بین‌شرکتی) تاثیر می‌گذارد.

برای مطالعه بیشتر

  • arXiv:2604.02460 — "برتری تک‌عامل‌ها بر سیستم‌های چندعاملی در استدلال چندگامی با بودجه توکن استدلالی برابر": شفاف‌ترین چالش منتشر شده علیه مزایای رایانشی ادعا شده برای مباحثه.
  • arXiv:2601.02854 — M3MAD-Bench: ارزیابی در مقیاس بزرگ مباحثه در ۹ مدل و ۱۳ مجموعه داده، همراه با طبقه‌بندی شکست‌های توهم جمعی.
  • arXiv:2406.09187 — GuardAgent: عاملی محافظ که سیاست‌های امنیتی را به کد قابل اجرا ترجمه می‌کند؛ رویکردی مستقیم‌تر به ایمنی بازنویسی نسبت به اجماع مبتنی بر مباحثه.