تعویق آگاه از عدم قطعیت برای عاملهای LLM: چه زمانی از مدلهای کوچک به بزرگ ارجاع دهیم
فشار بر عاملهای خودمختار برای ارزان و قابلاطمینان بودن، آنها را در دو جهت مخالف میکشد: مدلهای پیشرو (frontier) قابلاطمینان اما گران هستند، در حالی که مدلهای کوچک ارزان اما مستعد خطا هستند. مقاله ReDAct اثر پیاتراشین و همکاران (arXiv:2604.07036) راه میانی را پیشنهاد میدهد — اجرای پیشفرض یک مدل کوچک و ارجاع به یک مدل بزرگ تنها زمانی که مدل کوچک دچار عدم قطعیت است. من این مقاله را میخوانم زیرا همین تنش در هر عامل ثبت بازگشت (write-back) برای Beancount در محیط عملیاتی وجود دارد: شما میخواهید سیستم دستهبندیهای روتین را بهطور ارزان انجام دهد و موارد غیرواضح را پیش از آنکه دفتر کل (ledger) را خراب کنند، ارجاع دهد.
مقاله
سیستم ReDAct (Reason-Defer-Act) بر اساس پارادایم پرامپتنویسی ReAct ساخته شده و یک معماری عامل دومدلی را معرفی میکند. یک مدل کوچک ارزان — مانند Qwen3-80B، Llama3.3-70B یا Llama4-Maverick — تمام مراحل را بهطور پیشفرض مدیریت میکند. در هر مرحله، این مدل یک ردپای استدلال (reasoning trace) و سپس یک اقدام (action) تولید میکند. سیستم عدم قطعیت در سطح توکن را فقط برای مرحله تولید اقدام اندازهگیری کرده و آن را با یک آستانه کالیبرهشده مقایسه میکند. اگر عدم قطعیت از آن آستانه فراتر رود، مرحله توسط یک مدل بزرگ گرانقیمت (GPT-5.2، Qwen3-235B یا Qwen3-480B) دوباره اجرا میشود؛ در غیر این صورت، اقدام مدل کوچک اجرا میگردد.
معیارهای عدم قطعیت مبتنی بر نظریه اطلاعات هستند و تنها به احتمالات لگاریتمی (log-probabilities) در سطح توکن نیاز دارند: احتمال توالی (مجموع لگاریتم احتمال منفی)، پرپلکسیتی (نرمالشده بر اساس طول) و میانگین آنتروپی توکن (میانگین آنتروپی در موقعیتهای مختلف توکن). آستانه از طریق مجموعهای از خروجیهای مدل کوچک با انتخاب مقداری که تعداد هدف برای فراخوانی مدل بزرگ در هر اپیزود (K) را ایجاد کند، کالیبره میشود.
ایدههای کلیدی
- اندازهگیری عدم قطعیت در مرحله اقدام، نه مرحله استدلال. یک آزمایش کمکی بر روی ۲,۴۱۱ مرحله ALFWorld نشان داد که عدم قطعیت در سطح استدلال قدرت تشخیص ضعیفی بین مراحل صحیح و غلط دارد؛ در حالی که پرپلکسیتی در سطح اقدام به عنوان پیشبینیکننده صحت، ROC-AUC و PRR بهمراتب بالاتری دارد.
- تعویق بر اساس PPL با ترکیب Qwen3-80B + GPT-5.2 به دقت ۸۰.۸٪ ± ۱.۱٪ در ALFWorld میرسد که از GPT-5.2 به تنهایی (۷۸.۳٪ ± ۱.۹٪) فراتر میرود، در حالی که هزینه آن ۱۶.۲۵ دلار در مقابل ۴۵.۲۱ دلار است — یعنی تقریباً ۶۴٪ ارزانتر.
- حدود ۱۵٪ از مراحل در عمل به تعویق میافتند تا با هدف کالیبراسیون تقریباً ۱۰٪ مطابقت داشته باشند؛ این شکاف به این دلیل به وجود میآید که مسیرهای شکستخورده (کوتاهتر) سهم نامتناسبی در بودجه تعویق دارند.
- تعویق تصادفی با همان نرخ، امتیاز ۷۷.۰٪ را کسب میکند — که هنوز بهتر از حالت فقط مدل کوچک (۶۸.۳٪) است، اما ب دتر از تعویق هدایتشده توسط سنجش عدم قطعیت (UQ). سیگنال عدم قطعیت واقعاً اهمیت دارد، نه فقط عمل فراخوانی بیشتر مدل بزرگ.
- MiniGrid فضای بهبود کمتری نشان میدهد. Qwen3-80B + GPT-5.2 با تعویق PPL به ۹۵.۰٪ میرسد در حالی که GPT-5.2 به تنهایی ۹۹.۰٪ است. دایره لغات محدودتر وظایف در اینجا باعث میشود وقتی مدل کوچک از نظر ساختاری ناتوان است، سقف سختتری برای رویکرد تعویق ایجاد شود.
- توزیع تعویق وابسته به وظیفه است. ALFWorld در مراحل بعدی (تاریخچه پرامپت طولانیتر) بیشتر تعویق میدهد، در حالی که MiniGrid الگویی دووجهی وابسته به موقعیت اولیه عامل نشان میدهد. این بدان معناست که کالیبراسیون آستانه ثابت در یک خانواده وظیفه بهتر از بین خانوادههای مختلف تعمیم مییابد.
چه چیزی تایید میشود — و چه چیزی نه
یافته تجربی اصلی معتبر است: پرپلکسیتی روی رشته اقدام، جایگزین مناسبی برای تشخیص احتمال خطای یک مرحله است. تجزیه استدلال/اقدام در ReAct طبیعتاً نقطه تمیزی را برای پیوست کردن سیگنال عدم قطعیت فراهم میکند و آزمایش کمکی پیشبینی صحت، توجیه مکانیکی واقعی برای این انتخاب طراحی ارائه میدهد.
آنچه من کمتر نسبت به آن متقاعد شدهام: نتیجه "فراتر رفتن از مدل بزرگ به تنهایی" در ALFWorld است. ۸۰.۸٪ ± ۱.۱٪ در مقابل ۷۸.۳٪ ± ۱.۹٪ در یک انحراف معیار همپوشانی دارند. نویسندگان این موضوع را به نقاط قوت مکمل نسبت میدهند — مدل کوچک مراحل روتین را بدون ریسکپذیریهای گاهبهگاه مدل بزرگ انجام میدهد — اما هیچ تحلیل جزئیتری (ablation) برای تایید این روایت وجود ندارد. این نتیجه میتواند به سادگی ناشی از نویز باشد.
انتخاب بنچمارک نیز محدودکننده است. ALFWorld و MiniGrid شبیهسازیهای خانگی متنی و مسیریابی در جهان شبکهای هستند — محیطهای محدودی که فراخوانی ابزار، اجرای کد یا بازیابی اسناد چندگانه را به چالش نمیکشند. اینکه آیا تعویق کالیبرهشده با عدم قطعیت در آن تنظیمات غنیتر (تنظیماتی که برای Beancount مرتبط هستند) پابرجا میماند یا خیر، بیپاسخ مانده است. همچنین انتخاب GPT-5.2 به عنوان مدل بزرگ، بازتولید اعداد هزینه را دشوار میکند.
فرآیند کالیبراسیون دارای یک چرخش حلنشده است: آستانه روی همان توزیعی انتخاب میشود که روی آن کالیبره شده است، بدون اعتبارسنجی جداگانه. نویسندگان تغییر توزیع بین کالیبراسیون (خروجیهای مدل کوچک) و ارزیابی (خروجیهای ترکیبی) را میپذیرند، اما پایداری آستانه را به کارهای آینده واگذار میکنند.
چرا این موضوع برای هوش مصنوعی در امور مالی مهم است
عاملهای ثبت بازگشت Beancount در هر تراکنش دقیقاً با همین پرسش تعویق مواجه هستند. یک خرید خواربار روتین نیاز به دستهبندی دارد؛ اما یک معامله ارزی چندمرحلهای غیرمعمول با یادداشتهای نیمهمنطبق، نیاز به بازبینی انسانی دارد. روش فعلی یا اتوماسیون کامل (پرخطر) است یا بازبینی کامل انسانی (گران). چارچوب ReDAct یک راه میانی عملی را پیشنهاد میدهد: مدل ارزان را اجرا کنید و زمانی که پرپلکسیتی روی ورودی پیشنهادی در دفتر روزنامه (journal) از آستانه کالیبرهشده فراتر رفت، آن را ارجاع دهید.
بستر مالی دو ملاحظه را اضافه میکند که در مقاله به آنها پرداخته نشده است. اول، تعویق در اینجا اغلب باید به معنای توقف و پرسش از کاربر باشد، نه فراخوانی یک LLM بزرگتر — معیار صحت دفتر کل، نیت کاربر است، نه امتیاز یک بنچمارک. دوم، بازگشتناپذیری یک ورودی ثبتشده در Beancount بالاتر از یک شیء اشتباه قرار داده شده در ALFWorld است. هدف کالیبراسیون K احتمالاً باید به جای اولویت دادن به دقت مدل کوچک، به سمت محافظهکاری در ارجاع تنظیم شود.
سیگنال کاهش ۶۴ درصدی هزینه، حتی با این ملاحظات، ارزش جدی گرفتن را دارد. اگر یک عامل Beancount تراکنشهای یک ماه را پردازش کند و تنها ۱۵٪ از تصمیمات دستهبندی به مدل گرانقیمت نیاز داشته باشند، اقتصاد اجرای یک عامل ثبت بازگشت توانمند بسیار بهتر به نظر میرسد.
پیشنهادهای مطالعه بعدی
- KnowNo (Ren et al., 2023, CoRL): "روباتهایی که کمک میخواهند: همترازی عدم قطعیت برای برنامهریزهای مدل زبانی بزرگ" — از پیشبینی منسجم (conformal prediction) برای کالیبره کردن یک ضمانت پوشش در مورد زمان درخواست کمک استفاده میکند. ReDAct با آن مقایسه نشده است؛ درک توازن بین ضمانتهای منسجم و کالیبراسیون آستانه پیش از انتخاب رویکرد نهایی مهم است. [arXiv:2307.01928]
- بررسی تخمین اعتماد و کالیبراسیون در مدلهای زبانی بزرگ (Guo et al. updated, NAACL 2024) — طبقهبندی سیستماتیک اعتماد لفظی، روشهای مبتنی بر نمونهبرداری و کالیبراسیون پس از واقعه؛ پیشزمینه تئوری برای تصمیمگیری در مورد اینکه آیا پرپلکسیتی جایگزین درستی برای عدم قطعیت است یا اینکه مقیاسبندی لوجیت کالیبرهشده عملکرد بهتری خواهد داشت. [arXiv:2311.08298]
- UALA: عامل زبانی آگاه از عدم قطعیت (Han, Buntine, Shareghi) — یک آستانه عدم قطعیت ساختاری مشابه را برای تصمیمگیری در مورد فراخوانی ابزار (فراخوانی ابزار در مقابل تکیه بر دانش مدل) اعمال میکند و فراخوانیهای ابزار را بیش از ۵۰٪ کاهش میدهد؛ مکمل مستقیم ReDAct برای محور استفاده از ابزار در عدم قطعیت عامل. [https://uala-agent.github.io/]
