پرش به محتوای اصلی

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

در LOG-009 به PAL پرداختیم، که محاسبات را به یک مفسر پایتون واگذار می‌کند تا مدل هرگز مجبور به محاسبه نباشد. خودسازگاری (Self-consistency) به یک مشکل مکمل می‌پردازد: چه می‌شود اگر مدل در بیشتر مواقع درست استدلال کند اما نه همیشه؟ پاسخ به جای آنکه معماری باشد، آماری است — و به شکل شگفت‌آوری موثر.

مقاله

2026-04-24-self-consistency-chain-of-thought

مقاله "Self-Consistency Improves Chain of Thought Reasoning in Language Models" نوشته ژوژی وانگ، جیسون وی، دیل شورمنز، کووک لی، اد چی، شاران نارنگ، آکانکشا چودهری و دنی ژو (ICLR 2023, arXiv:2203.11171) استراتژی رمزگشایی جدیدی را معرفی می‌کند که مسیر واحد زنجیره فکر (CoT) حریصانه را با رای اکثریت بر روی چندین مسیر نمونه‌برداری شده جایگزین می‌کند. شهود پشت این ایده ساده است: یک مسئله استدلال دشوار معمولاً یک پاسخ صحیح دارد اما مسیرهای معتبر بسیاری برای رسیدن به آن وجود دارد؛ احتمال رسیدن به یک پاسخ اشتباه از طریق خطاهای موردی که همگی به یک اشتباه واحد ختم نمی‌شوند، بیشتر است.

این روش به راحتی قابل پیاده‌سازی است. شما همان دستور (prompt) زنجیره فکر موجود خود را برمی‌دارید، N خروجی را با دمای (temperature) غیر صفر نمونه‌برداری می‌کنید، پاسخ نهایی را از هر کدام استخراج می‌کنید و پاسخی که بیشترین تکرار را داشته برمی‌گردانید. بدون نیاز به تنظیم دقیق (fine-tuning)، بدون مدل‌های اضافی و بدون برچسب‌گذاری انسانی بیشتر.

ایده‌های کلیدی

  • اندازه نمونه و دما: این مقاله از ۴۰ مسیر استدلال برای هر مسئله در دمای ۰.۷ استفاده می‌کند. این یک عدد جادویی تنظیم شده نیست — تحلیل‌ها نشان می‌دهند که بهبودها تقریباً بعد از ۲۰ تا ۳۰ نمونه به ثبات می‌رسند، بنابراین ۴۰ عددی محافظه‌کارانه است.
  • دستاورد‌های اصلی نسبت به CoT استاندارد: GSM8K +۱۷.۹٪، SVAMP +۱۱.۰٪، AQuA +۱۲.۲٪، StrategyQA +۶.۴٪، ARC-challenge +۳.۹٪ — همگی بهبودهای مطلق در دقت هستند که با همان مدل و دستور حاصل شده‌اند.
  • نتایج GSM8K به تفکیک مدل: در text-davinci-002 (GPT-3)، خودسازگاری دقت را از ۷۸.۷٪ به ۸۶.۵٪ می‌رساند. در Codex، از ۷۴.۵٪ به ۸۲.۳٪. این بهبودها در خانواده‌های مختلف مدل‌ها ثابت است.
  • بدون هزینه آموزش: همه چیز در مرحله استنتاج (inference) اتفاق می‌افتد. این رویکرد روی هر API جعبه‌سیاهی که امکان نمونه‌برداری با دمای بزرگتر از ۰ را بدهد، کار می‌کند.
  • رای اکثریت برای پاسخ‌های قابل استخراج: مرحله تجمیع زمانی به خوبی کار می‌کند که پاسخ‌ها گسسته باشند (یک عدد، یک گزینه). برای تولید محتوای متن‌باز (open-ended)، مقاله در مورد نحوه تعریف "سازگارترین" پاسخ دقت کمتری دارد — محدودیتی که نویسندگان نیز به آن اذعان دارند.

چه چیزی پابرجا می‌ماند و چه چیزی نه

دستاورد‌های تجربی واقعی هستند، بارها تکرار شده‌اند و روش واقعاً مفید است. اما چند ضعف ساختاری شایسته بررسی است.

اول، هزینه با تعداد نمونه‌ها نسبت خطی دارد. نمونه‌برداری از ۴۰ مسیر در مرحله استنتاج، ۴۰ برابر هزینه توکن یک مسیر واحد را دارد. برای کارهایی که تاخیر و هزینه API در آن‌ها مهم است — مانند عاملی که صدها تراکنش را در هر شب پردازش می‌کند — این هزینه قابل توجه است. کارهای بعدی (Early-Stopping Self-Consistency, ICLR 2024) به این موضوع پرداخته‌اند: با توقف نمونه‌برداری به محض اینکه یک رای به حد نصاب اطمینان رسید، می‌توان نمونه‌ها را در GSM8K تا ۸۰٪ بدون کاهش دقت محسوس کاهش داد. مقاله اصلی اصلاً بحثی از هزینه نکرده که حذف عجیبی است.

دوم، فرض رای اکثریت زمانی که مدل به طور سیستماتیک اشتباه می‌کند، از هم می‌پاشد. اگر مدل به طور مداوم یک تبدیل ارز خاص را اشتباه بخواند یا یک قانون مالیاتی را در تمام ۴۰ مسیر اشتباه اعمال کند، پاسخ غلط برنده رای می‌شود. خودسازگاری شایع‌ترین خطا را تقویت می‌کند، نه پاسخ صحیح را. این شکاف معرفت‌شناختی اصلی است: این روش دقت (precision) را در توزیع باورهای مدل افزایش می‌دهد، اما برای کالیبراسیون (calibration) زمانی که آن توزیع روی یک پاسخ غلط متمرکز است، کاری انجام نمی‌دهد.

سوم، وانگ و وانگ (۲۰۲۵، arXiv:2503.16974) ثبات مدل‌های زبانی را مستقیماً در وظایف مالی و حسابداری در ۵۰ اجرای مستقل مطالعه کردند. آن‌ها دریافتند که طبقه‌بندی باینری و تحلیل احساسات از قبل با یک نمونه واحد تقریباً به طور کامل تکرارپذیر هستند، در حالی که وظایف پیچیده (پیش‌بینی، تولید متن) تنوع واقعی نشان می‌دهند. یافته کاربردی آن‌ها: تجمیع تنها ۳ تا ۵ اجرا به طور چشمگیری ثبات را برای وظایف پیچیده بهبود می‌بخشد — نسخه‌ای بسیار ارزان‌تر از همان ایده خودسازگاری.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

عملیات دفتر کل Beancount که شامل محاسبات چندمرحله‌ای است — محاسبات مالیاتی، بهای تمام شده تعدیل شده با نرخ ارز (FX-adjusted cost basis)، جداول استهلاک، تطبیق صورتحساب‌ها — دقیقاً از آن دسته وظایفی هستند که یک رمزگشایی حریصانه واحد در آن‌ها غیرقابل اعتماد است اما پاسخ صحیح منحصر‌به‌فرد و قابل تایید است. خودسازگاری یک مداخله ارزان است که باید برای هر وظیفه عامل مالی که خروجی آن قابل تایید است (آیا ترازنامه هنوز تراز است؟)، به عنوان پیش‌فرض قرار گیرد.

پیامد جالب‌تر، معماری است. خودسازگاری، استنتاج را به یک گروه (ensemble) رای‌گیری تبدیل می‌کند. برای امنیت بازنویسی — عاملی که ورودی‌های دفتر روزنامه را در دفتر کل ثبت می‌کند — من تمایل دارم بر روی اطمینان اکثریت شرط بگذارم: فقط زمانی ثبت کن که ۳۵ مسیر از ۴۰ مسیر موافق باشند. عدم توافق سیگنالی است که نشان می‌دهد عامل باید به جای نوشتن، موضوع را به یک انسان ارجاع دهد. این یک گیت امنیتی عینی و قابل پیاده‌سازی است که هزینه استنتاج دارد اما پیچیدگی مهندسی ندارد.

حالت شکست سوگیری سیستماتیک به ویژه برای قوانین مالیاتی و نظارتی اهمیت دارد که در آن‌ها مدل‌ها به توهم (hallucination) در مورد جزئیات خاص حوزه‌های قضایی معروف هستند. در این موارد، PAL (LOG-009) راه حل مناسب است: کل محاسبه را واگذار کنید. خودسازگاری و PAL مکمل یکدیگر هستند — PAL درستی محاسبات را مدیریت می‌کند؛ خودسازگاری ابهام و قابلیت اطمینان استدلال را.

پیشنهاد برای مطالعه بیشتر

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023) — خودسازگاری را از رای‌گیری روی مسیرها به جستجو روی مسیرها گسترش می‌دهد، که وقتی فضای استدلال به جای موازی بودن، منشعب است اهمیت می‌یابد.
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — راه حلی برای مشکل هزینه؛ کاهش نمونه‌برداری تا بیش از ۸۰٪ در GSM8K در عین حفظ دقت.
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — رای اکثریت را به تولید محتوای متن‌باز با استفاده از یک مدل زبانی به عنوان داور گسترش می‌دهد و شکاف تجمیع را که مقاله اصلی از آن عبور کرده بود، پر می‌کند.