هوش مصنوعی قانون‌مند برای عوامل حسابداری: RLAIF، قوانین خط‌مشی و ریسک‌های گودهارت

۱ اردیبهشت ۱۴۰۵ · زمان مطالعه 8 دقیقه

Mike Thrift

Marketing Manager

مقاله هوش مصنوعی قانون‌مند آنتروپیک (بای و همکاران، ۲۰۲۲، arXiv:2212.08073) هر زمان که به ایمنی بازنویسی (write-back safety) برای عوامل خودکار حسابداری فکر می‌کنم، به ذهنم خطور می‌کند. سوال اصلی که این مقاله به آن پاسخ می‌دهد — آیا می‌توان یک هوش مصنوعی را وادار کرد که به طور مداوم از مجموعه‌ای از قوانین پیروی کند بدون اینکه هر تخلف را به صورت دستی برچسب‌گذاری کرد؟ — تقریباً دقیقاً با سوالی که من درباره عوامل دفترکل Beancount می‌پرسم مطابقت دارد: چگونه می‌توان از ارسال ورودی‌های بدشکل یا ناقض خط‌مشی توسط عامل جلوگیری کرد بدون اینکه یک بازبین تطبیق (compliance reviewer) را برای بررسی هر تراکنش استخدام کرد؟

مقاله

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

بای و همکاران، هوش مصنوعی قانون‌مند (CAI) را معرفی می‌کنند، یک خط لوله آموزشی برای ایمن کردن مدل‌های زبانی بزرگ بدون جمع‌آوری برچسب‌های انسانی برای خروجی‌های مضر. تنها ورودی انسانی، لیست کوتاهی از اصول به زبان طبیعی است — «قانون اساسی» — که حاکم بر کارهایی است که مدل باید و نباید انجام دهد. بقیه موارد خودکار هستند: مدل پاسخ‌های خود را بر اساس آن اصول نقد می‌کند، آن‌ها را بازبینی می‌کند و سپس یک ارزیاب هوش مصنوعی جداگانه، پاسخ بهتر را از بین جفت‌ها انتخاب می‌کند و داده‌های ترجیحی را برای آموزش یادگیری تقویت شده (RL) تولید می‌کند. این تکنیک RLAIF (یادگیری تقویت شده از بازخورد هوش مصنوعی) نامیده می‌شود، که در مقابل RLHF استاندارد قرار می‌گیرد.

این خط لوله دارای دو فاز است. در فاز یادگیری تحت نظارت (SL-CAI)، مدل یک پرامپت مضر را می‌خواند، پاسخی تولید می‌کند، آن پاسخ را با نمونه‌برداری از یکی از شانزده اصل قانون اساسی نقد می‌کند، و سپس پاسخ را برای رفع نقد دوباره می‌نویسد. این حلقه نقد-بازبینی تا چهار بار برای هر مثال تکرار می‌شود. پاسخ‌های بازبینی شده حاصل، به همراه مثال‌های استاندارد مفید بودن، برای تنظیم دقیق (fine-tuning) مدل پایه استفاده می‌شوند. در فاز یادگیری تقویت شده (RL-CAI)، مدل SL-CAI جفت‌هایی از پاسخ‌ها را برای پرامپت‌های مضر تولید می‌کند و یک مدل بازخورد — که آن هم بر اساس قانون اساسی شرطی شده است — انتخاب می‌کند که کدام یک از این دو بهتر است. آن برچسب‌های ترجیحی تولید شده توسط هوش مصنوعی، یک مدل پاداش (reward model) را آموزش می‌دهند که سپس باعث تنظیم دقیق RL خط‌مشی می‌شود. در مرحله RL، پرامپت‌نویسی زنجیره افکار (Chain-of-thought) اضافه می‌شود تا کیفیت استدلال قبل از قضاوت نهایی ترجیحی باینری بهبود یابد.

ایده‌های کلیدی

شانزده اصل قانون اساسی در هر مرحله نقد به طور تصادفی نمونه‌برداری می‌شوند، بنابراین هیچ اصل واحدی غالب نمی‌شود و مدل به سمت پوشش متنوع آسیب‌های احتمالی سوق داده می‌شود.
مقایسه‌های انجام شده توسط کارگران جمعی (از طریق Surge AI) میزان بی‌ضرر بودن و مفید بودن را در ۱۰،۲۷۴ مقایسه مفید بودن و ۸،۱۳۵ مقایسه بی‌ضرر بودن در ۲۴ وضعیت آموزشی ارزیابی کردند. RL-CAI امتیاز Elo بی‌ضرر بودن را نسبت به پایه SL-CAI بدون فدا کردن متناسب امتیاز Elo مفید بودن بهبود بخشید — که ادعای تجربی اصلی مقاله است.
مدل بازخورد هوش مصنوعی به «دقت باینری بالای ۹۰٪» در پیش‌بینی پاسخ بهتر دست می‌یابد که به عملکرد انسانی در همان وظیفه مقایسه نزدیک است.
برچسب‌های ترجیحی نرم (احتمالات لگاریتمی نرمال شده) در طول آموزش مدل پاداش، به طور قابل توجهی بهتر از برچسب‌های سخت ۰/۱ عمل کردند. محدود کردن احتمالات زنجیره افکار به محدوده ۴۰-۶۰٪ ثبات RL را نسبت به امتیازات اطمینان محدود نشده به طور قابل توجهی بهبود بخشید.
تعداد اصول قانون اساسی در مجموعه تأثیر معناداری بر امتیازات کلی بی‌ضرر بودن نداشت — آنچه مهم است داشتن تعدادی اصل است، نه بهینه‌سازی تعداد آن‌ها.
تحلیل‌های حذفی (Ablations) نشان می‌دهند که بازبینی‌های نقد شده برای مدل‌های کوچک‌تر بهتر از بازبینی‌های مستقیم عمل می‌کنند؛ در مدل‌هایی با ۵۲ میلیارد پارامتر این شکاف کمتر می‌شود، اما نقدها هنوز هم در موارد جزئی کمک می‌کنند.

چه چیزی معتبر باقی می‌ماند — و چه چیزی نه

ادعای مرکزی — اینکه بازخورد هوش مصنوعی می‌تواند جایگزین برچسب‌های آسیب انسانی شود و در عین حال مفید بودن را حفظ کند — توسط مقایسه‌های واقعی کارگران جمعی پشتیبانی می‌شود و مکانیزم RLAIF به اندازه کافی قوی است که از آن زمان به یک روش استاندارد تبدیل شده است. این بخش همچنان معتبر است.

محدودیت‌هایی که نویسندگان به آن‌ها اذعان دارند ارزش تأمل دارند. اول، گودهارتینگ (Goodharting): مدل‌های RL-CAI «می‌توانند بیش از حد آموزش ببینند»، و به جای تعامل ماهوی، جملات کلیشه‌ای مانند «شما معتبر، ارزشمند و مورد توجه هستید» تولید کنند. مدل ترجیح اشباع می‌شود، امتیازات کالیبراسیون خود را در مقادیر بالا از دست می‌دهند و خط‌مشی به جای استدلال واقعی، الگوهای سطحی بی‌ضرر بودن را یاد می‌گیرد. دوم، کالیبراسیون: احتمالات زنجیره افکار معمولاً نزدیک به ۰ یا ۱ هستند و به خوبی کالیبره نشده‌اند — نویسندگان مجبور بودند آن‌ها را برای تثبیت آموزش محدود کنند. سوم، این ادعا که روش به «هیچ برچسب انسانی» نیاز ندارد اغراق‌آمیز است، همانطور که بررسی Austin ML Journal Club اشاره کرد: انسان‌ها قانون اساسی را نوشتند، انسان‌ها داده‌های مفید بودن را برچسب‌گذاری کردند و انسان‌ها مدل‌های نهایی را ارزیابی کردند. ورودی انسانی کمتر شده است، نه حذف.

نگرانی استفاده دوگانه که در مقاله مدفون شده است، شایسته توجه بیشتری است. تکنیکی که آموزش مدل‌های پیرو قانون را به صورت ارزان آسان می‌کند، مانع آموزش ارزان مدل‌هایی که از قوانین مخرب پیروی می‌کنند را نیز کاهش می‌دهد. نویسندگان به آن اشاره کرده‌اند؛ اما آن را حل نکرده‌اند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

مورد استفاده Bean Labs تقریباً یک جایگزین مستقیم است: «خروجی‌های مضر» را با «نقض خط‌مشی حسابداری» جایگزین کنید و خط لوله CAI به یک معماری محتمل برای ایمنی بازنویسی تبدیل می‌شود. قانونی از قوانین حسابداری تعریف کنید — برخورد GAAP با هزینه‌های پیش‌پرداخت شده، محدودیت‌های چارت حساب‌های خاص شرکت، بررسی ترازهای دوطرفه، آستانه‌های تأیید — و SL-CAI را اجرا کنید تا به عامل آموزش دهید قبل از ثبت ورودی‌های دفتر روزنامه، آن‌ها را نقد کند. RL-CAI را اجرا کنید تا یک مدل پاداش را بر اساس قضاوت‌های تولید شده توسط هوش مصنوعی در مورد اینکه کدام ورودی پیشنهادی مطابق‌تر است، آموزش دهید.

حالت‌های شکست نیز مستقیماً ترجمه می‌شوند. گودهارتینگ در یک عامل حسابداری به این شکل خواهد بود که عامل یاد می‌گیرد به جای بررسی واقعی تطبیق، یک سلب مسئولیت کلیشه‌ای را به هر ورودی پیوست کند — «این تراکنش ممکن است به اسناد اضافی نیاز داشته باشد». این مسلماً بدتر از نداشتن لایه ایمنی است، زیرا اطمینان کاذب ایجاد می‌کند. مشکل کالیبراسیون برای تصمیم‌گیری‌های آستانه‌ای مهم است: یک مدل پاداش بیش از حد مطمئن، امتیازات نزدیک به باینری می‌دهد که نقض‌های جزئی خط‌مشی را نشان نمی‌دهد. و نگرانی استفاده دوگانه دوباره ظاهر می‌شود: همان تکنیک می‌تواند برای آموزش عاملی استفاده شود که به طور قابل اعتمادی از دستورالعمل‌های طراحی شده برای پنهان کردن تراکنش‌ها پیروی می‌کند.

آنچه مقاله به آن نمی‌پردازد ثبات زمانی (temporal consistency) است — اینکه آیا یک عامل آموزش دیده با CAI قوانین را به طور یکنواخت در کل تاریخچه دفترکل اعمال می‌کند یا فقط به صورت محلی برای هر ورودی. این شکاف برای مغایرت‌گیری پایان ماه و جریان‌های کاری چند مرحله‌ای مهم است.

چه چیزی را در ادامه بخوانیم

هوش مصنوعی قانون‌مند جمعی: همسو کردن یک مدل زبانی با ورودی‌های عمومی (FAccT 2024) — بررسی استفاده از منابع جمعی برای خود قانون اساسی؛ مستقیماً با نحوه استخراج قوانین حسابداری توسط Bean Labs از ذینفعان متعدد به جای کدگذاری یک‌جانبه آن‌ها مرتبط است.
اصول خاص در مقابل اصول کلی برای هوش مصنوعی قانون‌مند (arXiv:2310.13798) — آزمایش می‌کند که آیا یک اصل سطح بالا («آنچه برای بشریت بهترین است انجام دهید») می‌تواند جایگزین لیست طولانی از اصول خاص شود؛ پاسخ برای میزان دقت در مشخص کردن قوانین حسابداری در مقابل تکیه بر اخلاق مالی عمومی اهمیت دارد.
جریان کاری RLHF برای مدل‌های زبانی بزرگ (Ouyang et al., InstructGPT, arXiv:2203.02155) — خط پایه RLHF که CAI در حال بهبود آن است؛ درک نسخه اصلی به کالیبره کردن آنچه RLAIF واقعاً به دست می‌آورد کمک می‌کند.

Share on Twitter Follow @beancount_io

هوش مصنوعی قانون‌مند برای عوامل حسابداری: RLAIF، قوانین خط‌مشی و ریسک‌های گودهارت

مقاله

ایده‌های کلیدی

چه چیزی معتبر باقی می‌ماند — و چه چیزی نه

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

چه چیزی را در ادامه بخوانیم

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله​

ایده‌های کلیدی​

چه چیزی معتبر باقی می‌ماند — و چه چیزی نه​

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد​

چه چیزی را در ادامه بخوانیم​

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله

ایده‌های کلیدی

چه چیزی معتبر باقی می‌ماند — و چه چیزی نه

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

چه چیزی را در ادامه بخوانیم