پرش به محتوای اصلی

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

فشار بر عامل‌های خودمختار برای ارزان و قابل‌اطمینان بودن، آن‌ها را در دو جهت مخالف می‌کشد: مدل‌های پیشرو (frontier) قابل‌اطمینان اما گران هستند، در حالی که مدل‌های کوچک ارزان اما مستعد خطا هستند. مقاله ReDAct اثر پیاتراشین و همکاران (arXiv:2604.07036) راه میانی را پیشنهاد می‌دهد — اجرای پیش‌فرض یک مدل کوچک و ارجاع به یک مدل بزرگ تنها زمانی که مدل کوچک دچار عدم قطعیت است. من این مقاله را می‌خوانم زیرا همین تنش در هر عامل ثبت بازگشت (write-back) برای Beancount در محیط عملیاتی وجود دارد: شما می‌خواهید سیستم دسته‌بندی‌های روتین را به‌طور ارزان انجام دهد و موارد غیرواضح را پیش از آنکه دفتر کل (ledger) را خراب کنند، ارجاع دهد.

مقاله

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

سیستم ReDAct (Reason-Defer-Act) بر اساس پارادایم پرامپت‌نویسی ReAct ساخته شده و یک معماری عامل دومدلی را معرفی می‌کند. یک مدل کوچک ارزان — مانند Qwen3-80B، Llama3.3-70B یا Llama4-Maverick — تمام مراحل را به‌طور پیش‌فرض مدیریت می‌کند. در هر مرحله، این مدل یک ردپای استدلال (reasoning trace) و سپس یک اقدام (action) تولید می‌کند. سیستم عدم قطعیت در سطح توکن را فقط برای مرحله تولید اقدام اندازه‌گیری کرده و آن را با یک آستانه کالیبره‌شده مقایسه می‌کند. اگر عدم قطعیت از آن آستانه فراتر رود، مرحله توسط یک مدل بزرگ گران‌قیمت (GPT-5.2، Qwen3-235B یا Qwen3-480B) دوباره اجرا می‌شود؛ در غیر این صورت، اقدام مدل کوچک اجرا می‌گردد.

معیارهای عدم قطعیت مبتنی بر نظریه اطلاعات هستند و تنها به احتمالات لگاریتمی (log-probabilities) در سطح توکن نیاز دارند: احتمال توالی (مجموع لگاریتم احتمال منفی)، پرپلکسیتی (نرمال‌شده بر اساس طول) و میانگین آنتروپی توکن (میانگین آنتروپی در موقعیت‌های مختلف توکن). آستانه از طریق مجموعه‌ای از خروجی‌های مدل کوچک با انتخاب مقداری که تعداد هدف برای فراخوانی مدل بزرگ در هر اپیزود (K) را ایجاد کند، کالیبره می‌شود.

ایده‌های کلیدی

  • اندازه‌گیری عدم قطعیت در مرحله اقدام، نه مرحله استدلال. یک آزمایش کمکی بر روی ۲,۴۱۱ مرحله ALFWorld نشان داد که عدم قطعیت در سطح استدلال قدرت تشخیص ضعیفی بین مراحل صحیح و غلط دارد؛ در حالی که پرپلکسیتی در سطح اقدام به عنوان پیش‌بینی‌کننده صحت، ROC-AUC و PRR به‌مراتب بالاتری دارد.
  • تعویق بر اساس PPL با ترکیب Qwen3-80B + GPT-5.2 به دقت ۸۰.۸٪ ± ۱.۱٪ در ALFWorld می‌رسد که از GPT-5.2 به تنهایی (۷۸.۳٪ ± ۱.۹٪) فراتر می‌رود، در حالی که هزینه‌ آن ۱۶.۲۵ دلار در مقابل ۴۵.۲۱ دلار است — یعنی تقریباً ۶۴٪ ارزان‌تر.
  • حدود ۱۵٪ از مراحل در عمل به تعویق می‌افتند تا با هدف کالیبراسیون تقریباً ۱۰٪ مطابقت داشته باشند؛ این شکاف به این دلیل به وجود می‌آید که مسیرهای شکست‌خورده (کوتاه‌تر) سهم نامتناسبی در بودجه تعویق دارند.
  • تعویق تصادفی با همان نرخ، امتیاز ۷۷.۰٪ را کسب می‌کند — که هنوز بهتر از حالت فقط مدل کوچک (۶۸.۳٪) است، اما بدتر از تعویق هدایت‌شده توسط سنجش عدم قطعیت (UQ). سیگنال عدم قطعیت واقعاً اهمیت دارد، نه فقط عمل فراخوانی بیشتر مدل بزرگ.
  • MiniGrid فضای بهبود کمتری نشان می‌دهد. Qwen3-80B + GPT-5.2 با تعویق PPL به ۹۵.۰٪ می‌رسد در حالی که GPT-5.2 به تنهایی ۹۹.۰٪ است. دایره لغات محدودتر وظایف در اینجا باعث می‌شود وقتی مدل کوچک از نظر ساختاری ناتوان است، سقف سخت‌تری برای رویکرد تعویق ایجاد شود.
  • توزیع تعویق وابسته به وظیفه است. ALFWorld در مراحل بعدی (تاریخچه پرامپت طولانی‌تر) بیشتر تعویق می‌دهد، در حالی که MiniGrid الگویی دو‌وجهی وابسته به موقعیت اولیه عامل نشان می‌دهد. این بدان معناست که کالیبراسیون آستانه ثابت در یک خانواده وظیفه بهتر از بین خانواده‌های مختلف تعمیم می‌یابد.

چه چیزی تایید می‌شود — و چه چیزی نه

یافته تجربی اصلی معتبر است: پرپلکسیتی روی رشته اقدام، جایگزین مناسبی برای تشخیص احتمال خطای یک مرحله است. تجزیه استدلال/اقدام در ReAct طبیعتاً نقطه تمیزی را برای پیوست کردن سیگنال عدم قطعیت فراهم می‌کند و آزمایش کمکی پیش‌بینی صحت، توجیه مکانیکی واقعی برای این انتخاب طراحی ارائه می‌دهد.

آنچه من کمتر نسبت به آن متقاعد شده‌ام: نتیجه "فراتر رفتن از مدل بزرگ به تنهایی" در ALFWorld است. ۸۰.۸٪ ± ۱.۱٪ در مقابل ۷۸.۳٪ ± ۱.۹٪ در یک انحراف معیار همپوشانی دارند. نویسندگان این موضوع را به نقاط قوت مکمل نسبت می‌دهند — مدل کوچک مراحل روتین را بدون ریسک‌پذیری‌های گاه‌به‌گاه مدل بزرگ انجام می‌دهد — اما هیچ تحلیل جزئی‌تری (ablation) برای تایید این روایت وجود ندارد. این نتیجه می‌تواند به سادگی ناشی از نویز باشد.

انتخاب بنچمارک نیز محدودکننده است. ALFWorld و MiniGrid شبیه‌سازی‌های خانگی متنی و مسیریابی در جهان شبکه‌ای هستند — محیط‌های محدودی که فراخوانی ابزار، اجرای کد یا بازیابی اسناد چندگانه را به چالش نمی‌کشند. اینکه آیا تعویق کالیبره‌شده با عدم قطعیت در آن تنظیمات غنی‌تر (تنظیماتی که برای Beancount مرتبط هستند) پابرجا می‌ماند یا خیر، بی‌پاسخ مانده است. همچنین انتخاب GPT-5.2 به عنوان مدل بزرگ، بازتولید اعداد هزینه را دشوار می‌کند.

فرآیند کالیبراسیون دارای یک چرخش حل‌نشده است: آستانه روی همان توزیعی انتخاب می‌شود که روی آن کالیبره شده است، بدون اعتبارسنجی جداگانه. نویسندگان تغییر توزیع بین کالیبراسیون (خروجی‌های مدل کوچک) و ارزیابی (خروجی‌های ترکیبی) را می‌پذیرند، اما پایداری آستانه را به کارهای آینده واگذار می‌کنند.

چرا این موضوع برای هوش مصنوعی در امور مالی مهم است

عامل‌های ثبت بازگشت Beancount در هر تراکنش دقیقاً با همین پرسش تعویق مواجه هستند. یک خرید خواربار روتین نیاز به دسته‌بندی دارد؛ اما یک معامله ارزی چندمرحله‌ای غیرمعمول با یادداشت‌های نیمه‌منطبق، نیاز به بازبینی انسانی دارد. روش فعلی یا اتوماسیون کامل (پرخطر) است یا بازبینی کامل انسانی (گران). چارچوب ReDAct یک راه میانی عملی را پیشنهاد می‌دهد: مدل ارزان را اجرا کنید و زمانی که پرپلکسیتی روی ورودی پیشنهادی در دفتر روزنامه (journal) از آستانه کالیبره‌شده فراتر رفت، آن را ارجاع دهید.

بستر مالی دو ملاحظه را اضافه می‌کند که در مقاله به آن‌ها پرداخته نشده است. اول، تعویق در اینجا اغلب باید به معنای توقف و پرسش از کاربر باشد، نه فراخوانی یک LLM بزرگتر — معیار صحت دفتر کل، نیت کاربر است، نه امتیاز یک بنچمارک. دوم، بازگشت‌ناپذیری یک ورودی ثبت‌شده در Beancount بالاتر از یک شیء اشتباه قرار داده شده در ALFWorld است. هدف کالیبراسیون K احتمالاً باید به جای اولویت دادن به دقت مدل کوچک، به سمت محافظه‌کاری در ارجاع تنظیم شود.

سیگنال کاهش ۶۴ درصدی هزینه، حتی با این ملاحظات، ارزش جدی گرفتن را دارد. اگر یک عامل Beancount تراکنش‌های یک ماه را پردازش کند و تنها ۱۵٪ از تصمیمات دسته‌بندی به مدل گران‌قیمت نیاز داشته باشند، اقتصاد اجرای یک عامل ثبت بازگشت توانمند بسیار بهتر به نظر می‌رسد.

پیشنهادهای مطالعه بعدی

  • KnowNo (Ren et al., 2023, CoRL): "روبات‌هایی که کمک می‌خواهند: هم‌ترازی عدم قطعیت برای برنامه‌ریزهای مدل زبانی بزرگ" — از پیش‌بینی منسجم (conformal prediction) برای کالیبره کردن یک ضمانت پوشش در مورد زمان درخواست کمک استفاده می‌کند. ReDAct با آن مقایسه نشده است؛ درک توازن بین ضمانت‌های منسجم و کالیبراسیون آستانه پیش از انتخاب رویکرد نهایی مهم است. [arXiv:2307.01928]
  • بررسی تخمین اعتماد و کالیبراسیون در مدل‌های زبانی بزرگ (Guo et al. updated, NAACL 2024) — طبقه‌بندی سیستماتیک اعتماد لفظی، روش‌های مبتنی بر نمونه‌برداری و کالیبراسیون پس از واقعه؛ پیش‌زمینه تئوری برای تصمیم‌گیری در مورد اینکه آیا پرپلکسیتی جایگزین درستی برای عدم قطعیت است یا اینکه مقیاس‌بندی لوجیت کالیبره‌شده عملکرد بهتری خواهد داشت. [arXiv:2311.08298]
  • UALA: عامل زبانی آگاه از عدم قطعیت (Han, Buntine, Shareghi) — یک آستانه عدم قطعیت ساختاری مشابه را برای تصمیم‌گیری در مورد فراخوانی ابزار (فراخوانی ابزار در مقابل تکیه بر دانش مدل) اعمال می‌کند و فراخوانی‌های ابزار را بیش از ۵۰٪ کاهش می‌دهد؛ مکمل مستقیم ReDAct برای محور استفاده از ابزار در عدم قطعیت عامل. [https://uala-agent.github.io/]