مدلهای زبانی بزرگ هنوز نمیتوانند استدلال خود را اصلاح کنند — یافتههای ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی
این مقاله نقطه مقابل مستقیم کارهای CRITIC و Reflexion است که اخیراً مطالعه کردهام. هوانگ و همکاران (ICLR 2024) یک استدلال ساده و ناخوشایند ارائه میدهند: وقتی مدلهای زبانی بزرگ (LLM) سعی میکنند بدون هیچ سیگنال خارجی استدلال خود را اصلاح کنند، بهبود نمییابند — بلکه بدتر میشوند. این مقاله که بلافاصله پس از LOG-013 درباره CRITIC (جایی که نقد مبتنی بر ابزار واقعاً کمک میکرد) منتشر شده، دقیقاً روشن میکند که چه نوع «خوداصلاحی» واقعی است و چه چیزی محصول جانبی چیدمان آزمایشی است.
مقاله
مقاله «مدلهای زبانی بزرگ هنوز نمیتوانند استدلال خود را اصلاح کنند» توسط جی هوانگ، شینیون چن، سواروپ میشرا، هوایشیو استیون ژنگ، آدامز وی یو، شینیینگ سونگ و دنی ژو (Google DeepMind / UIUC) در ICLR 2024 منتشر شد. ادعای اصلی محدود اما برای دستهای از طراحیهای عامل (agent) ویرانگر است: خوداصلاحی ذاتی (intrinsic) — یعنی درخواست از یک LLM برای بازبینی و اصلاح پاسخ خود تنها با استفاده از قضاوت خودش، بدون هیچ سیگنال حقیقت زمینی (ground-truth) — به طور مداوم عملکرد را در معیارهای سنجش استدلال کاهش میدهد. نویسندگان استدلال میکنند که دستاوردهای گزارش شده در چندین مقاله قبلی خوداصلاحی، ناشی از یک نقص روششناختی ظریف است: آن مقالات از برچسبهای اوراکل (oracle) برای تصمیمگیری در مورد زمان توقف اصلاح استفاده میکردند، به این معنی که مدل فقط پاسخهای از قبل غلط را اصلاح میکند. این خوداصلاحی نیست؛ بلکه فیلتر کردن با هدایت اوراکل است.
ایدههای کلیدی
- در GSM8K، دقت GPT-4 از ۹۵.۵٪ شروع میشود. پس از یک دور خوداصلاحی ذاتی به ۹۱.۵٪ و پس از دور دوم به ۸۹.۰٪ کاهش مییابد. GPT-3.5 طی دو دور از ۷۵.۹٪ به ۷۴.۷٪ افت میکند.
- افت در CommonSenseQA چشمگیرتر است: GPT-3.5 پس از یک دور خوداصلاحی از ۷۵.۸٪ به ۳۸.۱٪ سقوط میکند و در دور دوم کمی به ۴۱.۸٪ بهبود مییابد — اما همچنان به طرز فاجعهباری زیر خط پایه باقی میماند.
- تحلیل تغییرات پاسخ در GSM8K نشان میدهد که مدل بیشتر از آنکه پاسخهای غلط را به درست تبدیل کند، پاسخهای درست را به غلط تغییر میدهد. جهت خالص تغییرات مضر است.
- خوداصلاحی با هدایت اوراکل اوضاع را بهبود میبخشد: GPT-4 در GSM8K با برچسبهای اوراکل از ۹۵.۵٪ به ۹۷.۵٪ و GPT-3.5 در CommonSenseQA از ۷۵.۸٪ به ۸۹.۷٪ میرسد. اما این مستلزم دانستن این است که کدام پاسخها غلط هستند — چیزی که در زمان استقرار واقعی نمیتوانید بدانید.
- مباحثه چند-عاملی (Multi-agent debate)، که ایده محبوب دیگری است، وقتی بودجه استنتاج یکسان باشد، ضعیفتر از خودسازگاری (self-consistency) ساده عمل میکند. با مجموع ۹ پاسخ، خودسازگاری در GSM8K به ۸۸.۲٪ میرسد، در حالی که مباحثه چند-عاملی تنها به ۸۳.۰٪ دست مییابد.
- تولید مقید (CommonGen-Hard) در ابتدا به نظر میرسد بردی برای خوداصلاحی باشد (۴۴٪ ← ۶۷٪)، اما اگر صرفاً پرامپت اولیه را بهبود دهید، آن دستاورد از بین میرود (۸۱.۸٪). وقتی پرامپت شروع از قبل خوب باشد، خوداصلاحی آسیب میزند و دقت را به ۷۵.۱٪ کاهش میدهد.
چه چیزی پابرجاست — و چه چیزی نه
یافته اصلی استوار است: اعداد گویای واقعیت هستند. اگر از GPT-4 بخواهید بدون اینکه به آن بگویید کدام پاسخها غلط هستند، پاسخهای ریاضی خود را مجدداً بررسی کند، پاسخها به طور متوسط بدتر میشوند. شهودی که مقاله ارائه میدهد نیز درست است — LLMها نمیتوانند با اطمینان در مورد صحت استدلال خود قضاوت کنند، بنابراین وقتی تصمیم میگیرند پاسخی را تغییر دهند، در حال حدس زدن هستند و حداقل به همان اندازهای که درست حدس میزنند، اشتباه میکنند.
مقاله در ادعاهای تعمیمپذیری خود کمتر متقاعدکننده است. این تحقیق منحصراً وظایف استدلالی و دانشی را آزمایش میکند. حوزههایی وجود دارند — مانند سبک نگارش، رعایت محدودیتهای فرمت، یا کاهش سمیت (toxicity) — که در آنها بازبینی ت کراری احتمالاً کمک میکند و مقاله تا حد زیادی از این موارد چشمپوشی کرده است. نویسندگان به طور گذرا به این موضوع اشاره میکنند و میگویند «خوداصلاحی ممکن است برای وظایفی که ارزیابی در آنها سادهتر است، موثرتر باشد»، اما آن را به دقت آزمایش نمیکنند. آزمایش تولید مقید CommonGen جالب توجه است، اما استفاده از یک پرامپت اولیه نامناسب به عنوان خط پایه و نامیدن بهبود حاصله به عنوان «خوداصلاحی»، همان نقص روششناختی است که مقاله در کارهای دیگر نقد میکند.
همچنین مقاله به مسئله خوداصلاحی آموزشدیده (trained) نمیپردازد. یک تحقیق تکمیلی در سال ۲۰۲۵ (SCoRe، ICLR 2025، arXiv:2409.12917) نشان میدهد که خوداصلاحی آموزشدیده با یادگیری تقویتی (RL) روی خروجیهای خودِ مدل، به بهبود ۱۵.۶+ درصدی در MATH و ۹.۱+ درصدی در HumanEval دست مییابد — یک بهبود ذاتی واقعی. بنابراین عنوان «هنوز نمیتوانند خوداصلاحی کنند» نسبت به یک خوانش تندتر، بهتر با گذر زمان سازگار مانده است؛ تفسیر درست این است که «نمیتوان با پرامپت آنها را به خوداصلاحی واداشت»، نه اینکه «نمیتوانند خوداصلاحی را یاد بگیرند».
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
پیامد این موضوع برای عوامل بازنویسی دفتر کل (ledger write-back agents) کاملاً ملموس است. عاملی که یک ثبت دفتر روزنامه Beancount تولید میکند و سپس از خود میپرسد «آیا این درست به نظر میرسد؟» و آن را اصلاح میکند، در واقع نظر دوم دریافت نمیکند — بلکه در حال وارد کردن نویز است. دادههای اینجا نشان میدهند که اگر پاسخ اول غلط بوده، بازبینی توسط خود مدل به همان اندازه که احتمال دارد پاسخ غلط را درست کند، احتمال دارد یک پاسخ درست را خراب کند.
آنچه این مقاله تایید میکند، محدودیت طراحی است که من از CRITIC برداشت کردم: اعتبارسنجی خودکار بدون یک اوراکل خارجی غیرقابل اعتماد است. به طور خاص برای Beancount، اوراکل خارجی در دسترس و ارزان است — گزارههای موجودی (balance assertions) در عرض چند میلیثانیه اجرا میشوند، نام حسابها با سرفصل حسابهای شناخته شده مطابقت داده میشوند و مبالغ باید تا واحد سنت تراز شوند. معماری عاملی که یک ثبت موقت را ارسال میکند، bean-check را اجرا میکند و هر خطایی را به عنوان بازخورد ساختاریافته ملموس برمیگرداند، اساساً با معماری که از مدل میخواهد «ثبت دفتر روزنامه خود را بازبینی کن» متفاوت است. اولی از موتور دفتر کل به عنوان اوراکل استفاده میکند. دومی بر همان مکانیسم استدلالی تکیه میکند که در وهله اول خطا را تولید کرده است.
همچنین درس ظریفتری در مورد طراحی پرامپت در اینجا وجود دارد. آزمایش CommonGen نشان میدهد که وقتی پرامپت از قبل دقیق و صریح است، خوداصلاحی عملکرد را کاهش میدهد. این بدان معناست که اگر ما برای نوشتن پرامپتهای بسیار واضح جهت تجزیه تراکنشها وقت بگذاریم — پرامپتهایی که تمام قوانین نحو Beancount را به صراحت بیان میکنند — افزودن یک حلقه بازبینی توسط خود مدل روی آنها ممکن است عملاً به دقت آسیب بزند. معماری درست احتمالاً بازبینی خودکار را فقط مشروط به شکست در اعتبارسنجی خارجی (check) میکند، نه برای هر خروجی تولید شده.
آنچه در ادامه باید خواند
- SCoRe: Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917, ICLR 2025) — رویکرد مبتنی بر یادگیری تقویتی (RL) که به اولین دستاوردهای واقعی خوداصلاحی ذاتی دست مییابد؛ زمینهای ضروری برای درک اینکه مقاله فعلی چه چیزی را رد یا تایید میکند.
- When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs (TACL 2024) — طبقهبندی سیستماتیک از زمانهایی که خوداصلاحی کار میکند، با تمایز بین انواع ذاتی، مبتنی بر آموزش و کمکگرفته از ابزار.
- Self-Refine: Iterative Refinement with Self-Feedback (NeurIPS 2023) — مقاله اصلی که هوانگ و همکاران آن را نقد میکنند؛ مطالعه پشت سر هم این دو مقاله روشن میکند که فرض برچسب اوراکل دقیقاً در کجا نهفته است.
