خودسازگاری: نمونهبرداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش میدهد
در LOG-009 به PAL پرداختیم، که محاسبات را به یک مفسر پایتون واگذار میکند تا مدل هرگز مجبور به محاسبه نباشد. خودسازگاری (Self-consistency) به یک مشکل مکمل میپردازد: چه میشود اگر مدل در بیشتر مواقع درست استدلال کند اما نه همیشه؟ پاسخ به جای آنکه معماری باشد، آماری است — و به شکل شگفتآوری موثر.
مقاله
مقاله "Self-Consistency Improves Chain of Thought Reasoning in Language Models" نوشته ژوژی وانگ، جیسون وی، دیل شورمنز، کووک لی، اد چی، شاران نارنگ، آکانکشا چودهری و دنی ژو (ICLR 2023, arXiv:2203.11171) استراتژی رمزگشایی جدیدی را معرفی میکند که مسیر واحد زنجیره فکر (CoT) حریصانه را با رای اکثریت بر روی چندین مسیر نمونهبرداری شده جایگزین میکند. شهود پشت این ایده ساده است: یک مسئله استدلال دشوار معمولاً یک پاسخ صحیح دارد اما مسیرهای معتبر بسیاری برای رسیدن به آن وجود دارد؛ احتمال رسیدن به یک پاسخ اشتباه از طریق خطاهای موردی که همگی به یک اشتباه واحد ختم نمیشوند، بیشتر است.
این روش به راحتی قابل پیادهسازی است. شما همان دستور (prompt) زنجیره فکر موجود خود را برمیدارید، N خروجی را با دمای (temperature) غیر صفر نمونهبرداری میکنید، پاسخ نهایی را از هر کدام استخراج میکنید و پاسخی که بیشترین تکرار را داشته برمیگردانید. بدون نیاز به تنظیم دقیق (fine-tuning)، بدون مدلهای اضافی و بدون برچسبگذاری انسانی بیشتر.
ایدههای کلیدی
- اندازه نمونه و دما: این مقاله از ۴۰ مسیر استدلال برای هر مسئله در دمای ۰.۷ استفاده میکند. این یک عدد جادویی تنظیم شده نیست — تحلیلها نشان میدهند که بهبودها تقریباً بعد از ۲۰ تا ۳۰ نمونه به ثبات میرسند، بنابراین ۴۰ عددی محافظهکارانه است.
- دستاوردهای اصلی نسبت به CoT استاندارد: GSM8K +۱۷.۹٪، SVAMP +۱۱.۰٪، AQuA +۱۲.۲٪، StrategyQA +۶.۴٪، ARC-challenge +۳.۹٪ — همگی بهبودهای مطلق در دقت هستند که با همان مدل و دستور حاصل شدهاند.
- نتایج GSM8K به تفکیک مدل: در text-davinci-002 (GPT-3)، خودسازگاری دقت را از ۷۸.۷٪ به ۸۶.۵٪ میرساند. در Codex، از ۷۴.۵٪ به ۸۲.۳٪. این بهبودها در خانوادههای مختلف مدلها ثابت است.
- بدون هزینه آموزش: همه چیز در مرحله استنتاج (inference) اتفاق میافتد. این رویکرد روی هر API جعبهسیاهی که امکان نمونهبرداری با دمای بزرگتر از ۰ را بدهد، کار میکند.
- رای اکثریت برای پاسخهای قابل استخراج: مرحله تجمیع زمانی به خوبی کار میکند که پاسخها گسسته باشند (یک عدد، یک گزینه). برای تولید محتوای متنباز (open-ended)، مقاله در مورد نحوه تعریف "سازگارترین" پاسخ دقت کمتری دارد — محدودیتی که نویسندگان نیز به آن اذعان دارند.
چه چیزی پابرجا میماند و چه چیزی نه
دستاوردهای تجربی واقعی هستند، بارها تکرار شدهاند و روش واقعاً مفید است. اما چند ضعف ساختاری شایسته بررسی است.
اول، هزینه با تعداد نمونهها نسبت خطی دارد. نمونهبرداری از ۴۰ مسیر در مرحله استنتاج، ۴۰ برابر هزینه توکن یک مسیر واحد را دارد. برای کارهایی که تاخیر و هزینه API در آنها مهم است — مانند عاملی که صدها تراکنش را در هر شب پردازش میکند — این هزینه قابل توجه است. کارهای بعدی (Early-Stopping Self-Consistency, ICLR 2024) به این موضوع پرداختهاند: با توقف نمونهبرداری به محض اینکه یک رای به حد نصاب اطمینان رسید، میتوان نمونهها را در GSM8K تا ۸۰٪ بدون کاهش دقت محسوس کاهش داد. مقاله اصلی اصلاً بحثی از هزینه نکرده که حذف عجیبی است.
دوم، فرض رای اکثریت زمانی که مدل به طور سیستماتیک اشتباه میکند، از هم میپاشد. اگر مدل به طور مداوم یک تبدیل ارز خاص را اشتباه بخواند یا یک قانون مالیاتی را در تمام ۴۰ مسیر اشتباه اعمال کند، پاسخ غلط برنده رای میشود. خودسازگاری شایعترین خطا را تقویت میکند، نه پاسخ صحیح را. این شکاف معرفتشناختی اصلی است: این روش دقت (precision) را در توزیع باورهای مدل افزایش میدهد، اما برای کالیبراسیون (calibration) زمانی که آن توزیع روی یک پاسخ غلط متمرکز است، کاری انجام نمیدهد.
سوم، وانگ و وانگ (۲۰۲۵، arXiv:2503.16974) ثبات مدلهای زبانی را مستقیماً در وظایف مالی و حسابداری در ۵۰ اجرای مستقل مطالعه کردند. آنها دریافتند که طبقهبندی باینری و تحلیل احساسات از قبل با یک نمونه واحد تقریباً به طور کامل تکرارپذیر هستند، در حالی که وظایف پیچیده (پیشبینی، تولید متن) تنوع واقعی نشان میدهند. یافته کاربردی آنها: تجمیع تنها ۳ تا ۵ اجرا به طور چشمگیری ثبات را برای وظایف پیچیده بهبود میبخشد — نسخهای بسیار ارزانتر از همان ایده خودسازگاری.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
عملیات دفتر کل Beancount که شامل محاسبات چندمرحلهای است — محاسبات مالیاتی، بهای تمام شده تعدیل شده با نرخ ارز (FX-adjusted cost basis)، جداول استهلاک، تطبیق صورتحسابها — دقیقاً از آن دسته وظایفی هستند که یک رمزگشایی حریصانه واحد در آنها غیرقابل اعتماد است اما پاسخ صحیح منحصربهفرد و قابل تایید است. خودسازگاری یک مداخله ارزان است که باید برای هر وظیفه عامل مالی که خروجی آن قابل تایید است (آیا ترازنامه هنوز تراز است؟)، به عنوان پیشفرض قرار گیرد.
پیامد جالبتر، معماری است. خودسازگاری، استنتاج را به یک گروه (ensemble) رایگیری تبدیل میکند. برای امنیت بازنویسی — عاملی که ورودیهای دفتر روزنامه را در دفتر کل ثبت میکند — من تمایل دارم بر روی اطمینان اکثریت شرط بگذارم: فقط زمانی ثبت کن که ۳۵ مسیر از ۴۰ مسیر موافق باشند. عدم توافق سیگنالی است که نشان میدهد عامل باید به جای نوشتن، موضوع را به یک انسان ارجاع دهد. این یک گیت امنیتی عینی و قابل پیادهسازی است که هزینه استنتاج دارد اما پیچیدگی مهندسی ندارد.
حالت شکست سوگیری سیستماتیک به ویژه برای قوانین مالیاتی و نظارتی اهمیت دارد که در آنها مدلها به توهم (hallucination) در مورد جزئیات خاص حوزههای قضایی معروف هستند. در این موارد، PAL (LOG-009) راه حل مناسب است: کل محاسبه را واگذار کنید. خودسازگاری و PAL مکمل یکدیگر هستند — PAL درستی محاسبات را مدیریت میکند؛ خودسازگاری ابهام و قابلیت اطمینان استدلال را.
پیشنهاد برای مطالعه بیشتر
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023) — خودسازگاری را از رایگیری روی مسیرها به جستجو روی مسیرها گسترش میدهد، که وقتی فضای استدلال به جای موازی بودن، منشعب است اهمیت مییابد.
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — راه حلی برای مشکل هزینه؛ کاهش نمونهبرداری تا بیش از ۸۰٪ در GSM8K در عین حفظ دقت.
- Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — رای اکثریت را به تولید محتوای متنباز با استفاده از یک مدل زبانی به عنوان داور گسترش میدهد و شکاف تجمیع را که مقاله اصلی از آن عبور کرده بود، پر میکند.
