پرش به محتوای اصلی

مدل‌های زبانی بزرگ هنوز نمی‌توانند استدلال خود را اصلاح کنند — یافته‌های ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی

· زمان مطالعه 8 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

این مقاله نقطه مقابل مستقیم کارهای CRITIC و Reflexion است که اخیراً مطالعه کرده‌ام. هوانگ و همکاران (ICLR 2024) یک استدلال ساده و ناخوشایند ارائه می‌دهند: وقتی مدل‌های زبانی بزرگ (LLM) سعی می‌کنند بدون هیچ سیگنال خارجی استدلال خود را اصلاح کنند، بهبود نمی‌یابند — بلکه بدتر می‌شوند. این مقاله که بلافاصله پس از LOG-013 درباره CRITIC (جایی که نقد مبتنی بر ابزار واقعاً کمک می‌کرد) منتشر شده، دقیقاً روشن می‌کند که چه نوع «خوداصلاحی» واقعی است و چه چیزی محصول جانبی چیدمان آزمایشی است.

مقاله

2026-04-28-llms-cannot-self-correct-reasoning-yet

مقاله «مدل‌های زبانی بزرگ هنوز نمی‌توانند استدلال خود را اصلاح کنند» توسط جی هوانگ، شینیون چن، سواروپ میشرا، هوای‌شیو استیون ژنگ، آدامز وی یو، شینیینگ سونگ و دنی ژو (Google DeepMind / UIUC) در ICLR 2024 منتشر شد. ادعای اصلی محدود اما برای دسته‌ای از طراحی‌های عامل (agent) ویرانگر است: خوداصلاحی ذاتی (intrinsic) — یعنی درخواست از یک LLM برای بازبینی و اصلاح پاسخ خود تنها با استفاده از قضاوت خودش، بدون هیچ سیگنال حقیقت زمینی (ground-truth) — به طور مداوم عملکرد را در معیارهای سنجش استدلال کاهش می‌دهد. نویسندگان استدلال می‌کنند که دستاوردهای گزارش شده در چندین مقاله قبلی خوداصلاحی، ناشی از یک نقص روش‌شناختی ظریف است: آن مقالات از برچسب‌های اوراکل (oracle) برای تصمیم‌گیری در مورد زمان توقف اصلاح استفاده می‌کردند، به این معنی که مدل فقط پاسخ‌های از قبل غلط را اصلاح می‌کند. این خوداصلاحی نیست؛ بلکه فیلتر کردن با هدایت اوراکل است.

ایده‌های کلیدی

  • در GSM8K، دقت GPT-4 از ۹۵.۵٪ شروع می‌شود. پس از یک دور خوداصلاحی ذاتی به ۹۱.۵٪ و پس از دور دوم به ۸۹.۰٪ کاهش می‌یابد. GPT-3.5 طی دو دور از ۷۵.۹٪ به ۷۴.۷٪ افت می‌کند.
  • افت در CommonSenseQA چشمگیرتر است: GPT-3.5 پس از یک دور خوداصلاحی از ۷۵.۸٪ به ۳۸.۱٪ سقوط می‌کند و در دور دوم کمی به ۴۱.۸٪ بهبود می‌یابد — اما همچنان به طرز فاجعه‌باری زیر خط پایه باقی می‌ماند.
  • تحلیل تغییرات پاسخ در GSM8K نشان می‌دهد که مدل بیشتر از آنکه پاسخ‌های غلط را به درست تبدیل کند، پاسخ‌های درست را به غلط تغییر می‌دهد. جهت خالص تغییرات مضر است.
  • خوداصلاحی با هدایت اوراکل اوضاع را بهبود می‌بخشد: GPT-4 در GSM8K با برچسب‌های اوراکل از ۹۵.۵٪ به ۹۷.۵٪ و GPT-3.5 در CommonSenseQA از ۷۵.۸٪ به ۸۹.۷٪ می‌رسد. اما این مستلزم دانستن این است که کدام پاسخ‌ها غلط هستند — چیزی که در زمان استقرار واقعی نمی‌توانید بدانید.
  • مباحثه چند-عاملی (Multi-agent debate)، که ایده محبوب دیگری است، وقتی بودجه استنتاج یکسان باشد، ضعیف‌تر از خودسازگاری (self-consistency) ساده عمل می‌کند. با مجموع ۹ پاسخ، خودسازگاری در GSM8K به ۸۸.۲٪ می‌رسد، در حالی که مباحثه چند-عاملی تنها به ۸۳.۰٪ دست می‌یابد.
  • تولید مقید (CommonGen-Hard) در ابتدا به نظر می‌رسد بردی برای خوداصلاحی باشد (۴۴٪ ← ۶۷٪)، اما اگر صرفاً پرامپت اولیه را بهبود دهید، آن دستاورد از بین می‌رود (۸۱.۸٪). وقتی پرامپت شروع از قبل خوب باشد، خوداصلاحی آسیب می‌زند و دقت را به ۷۵.۱٪ کاهش می‌دهد.

چه چیزی پابرجاست — و چه چیزی نه

یافته اصلی استوار است: اعداد گویای واقعیت هستند. اگر از GPT-4 بخواهید بدون اینکه به آن بگویید کدام پاسخ‌ها غلط هستند، پاسخ‌های ریاضی خود را مجدداً بررسی کند، پاسخ‌ها به طور متوسط بدتر می‌شوند. شهودی که مقاله ارائه می‌دهد نیز درست است — LLMها نمی‌توانند با اطمینان در مورد صحت استدلال خود قضاوت کنند، بنابراین وقتی تصمیم می‌گیرند پاسخی را تغییر دهند، در حال حدس زدن هستند و حداقل به همان اندازه‌ای که درست حدس می‌زنند، اشتباه می‌کنند.

مقاله در ادعاهای تعمیم‌پذیری خود کمتر متقاعدکننده است. این تحقیق منحصراً وظایف استدلالی و دانشی را آزمایش می‌کند. حوزه‌هایی وجود دارند — مانند سبک نگارش، رعایت محدودیت‌های فرمت، یا کاهش سمیت (toxicity) — که در آن‌ها بازبینی تکراری احتمالاً کمک می‌کند و مقاله تا حد زیادی از این موارد چشم‌پوشی کرده است. نویسندگان به طور گذرا به این موضوع اشاره می‌کنند و می‌گویند «خوداصلاحی ممکن است برای وظایفی که ارزیابی در آن‌ها ساده‌تر است، موثرتر باشد»، اما آن را به دقت آزمایش نمی‌کنند. آزمایش تولید مقید CommonGen جالب توجه است، اما استفاده از یک پرامپت اولیه نامناسب به عنوان خط پایه و نامیدن بهبود حاصله به عنوان «خوداصلاحی»، همان نقص روش‌شناختی است که مقاله در کارهای دیگر نقد می‌کند.

همچنین مقاله به مسئله خوداصلاحی آموزش‌دیده (trained) نمی‌پردازد. یک تحقیق تکمیلی در سال ۲۰۲۵ (SCoRe، ICLR 2025، arXiv:2409.12917) نشان می‌دهد که خوداصلاحی آموزش‌دیده با یادگیری تقویتی (RL) روی خروجی‌های خودِ مدل، به بهبود ۱۵.۶+ درصدی در MATH و ۹.۱+ درصدی در HumanEval دست می‌یابد — یک بهبود ذاتی واقعی. بنابراین عنوان «هنوز نمی‌توانند خوداصلاحی کنند» نسبت به یک خوانش تندتر، بهتر با گذر زمان سازگار مانده است؛ تفسیر درست این است که «نمی‌توان با پرامپت آن‌ها را به خوداصلاحی واداشت»، نه اینکه «نمی‌توانند خوداصلاحی را یاد بگیرند».

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

پیامد این موضوع برای عوامل بازنویسی دفتر کل (ledger write-back agents) کاملاً ملموس است. عاملی که یک ثبت دفتر روزنامه Beancount تولید می‌کند و سپس از خود می‌پرسد «آیا این درست به نظر می‌رسد؟» و آن را اصلاح می‌کند، در واقع نظر دوم دریافت نمی‌کند — بلکه در حال وارد کردن نویز است. داده‌های اینجا نشان می‌دهند که اگر پاسخ اول غلط بوده، بازبینی توسط خود مدل به همان اندازه که احتمال دارد پاسخ غلط را درست کند، احتمال دارد یک پاسخ درست را خراب کند.

آنچه این مقاله تایید می‌کند، محدودیت طراحی است که من از CRITIC برداشت کردم: اعتبارسنجی خودکار بدون یک اوراکل خارجی غیرقابل اعتماد است. به طور خاص برای Beancount، اوراکل خارجی در دسترس و ارزان است — گزاره‌های موجودی (balance assertions) در عرض چند میلی‌ثانیه اجرا می‌شوند، نام حساب‌ها با سرفصل حساب‌های شناخته شده مطابقت داده می‌شوند و مبالغ باید تا واحد سنت تراز شوند. معماری عاملی که یک ثبت موقت را ارسال می‌کند، bean-check را اجرا می‌کند و هر خطایی را به عنوان بازخورد ساختاریافته ملموس برمی‌گرداند، اساساً با معماری که از مدل می‌خواهد «ثبت دفتر روزنامه خود را بازبینی کن» متفاوت است. اولی از موتور دفتر کل به عنوان اوراکل استفاده می‌کند. دومی بر همان مکانیسم استدلالی تکیه می‌کند که در وهله اول خطا را تولید کرده است.

همچنین درس ظریف‌تری در مورد طراحی پرامپت در اینجا وجود دارد. آزمایش CommonGen نشان می‌دهد که وقتی پرامپت از قبل دقیق و صریح است، خوداصلاحی عملکرد را کاهش می‌دهد. این بدان معناست که اگر ما برای نوشتن پرامپت‌های بسیار واضح جهت تجزیه تراکنش‌ها وقت بگذاریم — پرامپت‌هایی که تمام قوانین نحو Beancount را به صراحت بیان می‌کنند — افزودن یک حلقه بازبینی توسط خود مدل روی آن‌ها ممکن است عملاً به دقت آسیب بزند. معماری درست احتمالاً بازبینی خودکار را فقط مشروط به شکست در اعتبارسنجی خارجی (check) می‌کند، نه برای هر خروجی تولید شده.

آنچه در ادامه باید خواند

  • SCoRe: Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917, ICLR 2025) — رویکرد مبتنی بر یادگیری تقویتی (RL) که به اولین دستاوردهای واقعی خوداصلاحی ذاتی دست می‌یابد؛ زمینه‌ای ضروری برای درک اینکه مقاله فعلی چه چیزی را رد یا تایید می‌کند.
  • When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs (TACL 2024) — طبقه‌بندی سیستماتیک از زمان‌هایی که خوداصلاحی کار می‌کند، با تمایز بین انواع ذاتی، مبتنی بر آموزش و کمک‌گرفته از ابزار.
  • Self-Refine: Iterative Refinement with Self-Feedback (NeurIPS 2023) — مقاله اصلی که هوانگ و همکاران آن را نقد می‌کنند؛ مطالعه پشت سر هم این دو مقاله روشن می‌کند که فرض برچسب اوراکل دقیقاً در کجا نهفته است.