هوش مصنوعی قانونمند برای عوامل حسابداری: RLAIF، قوانین خطمشی و ریسکهای گودهارت
مقاله هوش مصنوعی قانونمند آنتروپیک (بای و همکاران، ۲۰۲۲، arXiv:2212.08073) هر زمان که به ایمنی بازنویسی (write-back safety) برای عوامل خودکار حسابداری فکر میکنم، به ذهنم خطور میکند. سوال اصلی که این مقاله به آن پاسخ میدهد — آیا میتوان یک هوش مصنوعی را وادار کرد که به طور مداوم از مجموعهای از قوانین پیروی کند بدون اینکه هر تخلف را به صورت دستی برچسبگذاری کرد؟ — تقریباً دقیقاً با سوالی که من درباره عوامل دفترکل Beancount میپرسم مطابقت دارد: چگونه میتوان از ارسال ورودیهای بدشکل یا ناقض خطمشی توسط عامل جلوگیری کرد بدون اینکه یک بازبین تطبیق (compliance reviewer) را برای بررسی هر تراکنش استخدام کرد؟
مقاله
بای و همکاران، هوش مصنوعی قانونمند (CAI) را معرفی میکنند، یک خط لوله آموزشی برای ایمن کردن مدلهای زبانی بزرگ بدون جمعآوری برچسبهای انسانی برای خروجیهای مضر. تنها ورودی انسانی، لیست کوتاهی از اصول به زبان طبیعی است — «قانون اساسی» — که حاکم بر کارهایی است که مدل باید و نباید انجام دهد. بقیه موارد خودکار هستند: مدل پاسخهای خود را بر اساس آن اصول نقد میکند، آنها را بازبینی میکند و سپس یک ارزیاب هوش مصنوعی جداگانه، پاسخ بهتر را از بین جفتها انتخاب میکند و دادههای ترجیحی را برای آموزش یادگیری تقویت شده (RL) تولید میکند. این تکنیک RLAIF (یادگیری تقویت شده از بازخورد هوش مصنوعی) نامیده میشود، که در مقابل RLHF استاندارد قرار میگیرد.
این خط لوله دارای دو فاز است. در فاز یادگیری تحت نظارت (SL-CAI)، مدل یک پرامپت مضر را میخواند، پاسخی تولید میکند، آن پاسخ را با نمونهبرداری از یکی از شانزده اصل قانون اساسی نقد میکند، و سپس پاسخ را برای رفع نقد دوباره مینویسد. این حلقه نقد-بازبینی تا چهار بار برای هر مثال تکرار میشود. پاسخهای بازبینی شده حاصل، به همراه مثالهای استاندارد مفید بودن، برای تنظیم دقیق (fine-tuning) مدل پایه استفاده میشوند. در فاز یادگیری تقویت شده (RL-CAI)، مدل SL-CAI جفتهایی از پاسخها را برای پرامپتهای مضر تولید میکند و یک مدل بازخورد — که آن هم بر اساس قانون اساسی شرطی شده است — انتخاب میکند که کدام یک از این دو بهتر است. آن برچسبهای ترجیحی تولید شده توسط هوش مصنوعی، یک مدل پاداش (reward model) را آموزش میدهند که سپس باعث تنظیم دقیق RL خطمشی میشود. در مرحله RL، پرامپتنویسی زنجیره افکار (Chain-of-thought) اضافه میشود تا کیفیت استدلال قبل از قضاوت نهایی ترجیحی باینری بهبود یابد.
ایدههای کلیدی
- شانزده اصل قانون اساسی در هر مرحله نقد به طور تصادفی نمونهبرداری میشوند، بنابراین هیچ اصل واحدی غالب نمیشود و مدل به سمت پوشش متنوع آسیبهای احتمالی سوق داده میشود.
- مقایسههای انجام شده توسط کارگران جمعی (از طریق Surge AI) میزان بیضرر بودن و مفید بودن را در ۱۰،۲۷۴ مقایسه مفید بودن و ۸،۱۳۵ مقایسه بیضرر بودن در ۲۴ وضعیت آموزشی ارزیابی کردند. RL-CAI امتیاز Elo بیضرر بودن را نسبت به پایه SL-CAI بدون فدا کردن متناسب امتیاز Elo مفید بودن بهبود بخشید — که ادعای تجربی اصلی مقاله است.
- مدل بازخورد هوش مصنوعی به «دقت باینری بالای ۹۰٪» در پیشبینی پاسخ بهتر دست مییابد که به عملکرد انسانی در همان وظیفه مقایسه نزدیک است.
- برچسبهای ترجیحی نرم (احتمالات لگاریتمی نرمال شده) در طول آموزش مدل پاداش، به طور قابل توجهی بهتر از برچسبهای سخت ۰/۱ عمل کردند. محدود کردن احتمالات زنجیره افکار به محدوده ۴۰-۶۰٪ ثبات RL را نسبت به امتیازات اطمینان محدود نشده به طور قابل توجهی بهبود بخشید.
- تعداد اصول قانون اساسی در مجموعه تأثیر معناداری بر امتیازات کلی بیضرر بودن نداشت — آنچه مهم است داشتن تعدادی اصل است، نه بهینهسازی تعداد آنها.
- تحلیلهای حذفی (Ablations) نشان میدهند که بازبینیهای نقد شده برای مدلهای کوچکتر بهتر از بازبینیهای مستقیم عمل میکنند؛ در مدلهایی با ۵۲ میلیارد پارامتر این شکاف کمتر میشود، اما نقدها هنوز هم در موارد جزئی کمک میکنند.
چه چیزی معتبر باقی میماند — و چه چیزی نه
ادعای مرکزی — اینکه بازخورد هوش مصنوعی میتواند جایگزین برچسبهای آسیب انسانی شود و در عین حال مفید بودن را حفظ کند — توسط مقایسههای واقعی کارگران جمعی پشتیبانی میشود و مکانیزم RLAIF به اندازه کافی قوی است که از آن زمان به یک روش استاندارد تبدیل شده است. این بخش همچنان معتبر است.
محدودیتهایی که نویسندگان به آنها اذعان دارند ارزش تأمل دارند. اول، گودهارتینگ (Goodharting): مدلهای RL-CAI «میتوانند بیش از حد آموزش ببینند»، و به جای تعامل ماهوی، جملات کلیشهای مانند «شما معتبر، ارزشمند و مورد توجه هستید» تولید کنند. مدل ترجیح اشباع میشود، امتیازات کالیبراسیون خود را در مقادیر بالا از دست میدهند و خطمشی به جای استدلال واقعی، الگوهای سطحی بیضرر بودن را یاد میگیرد. دوم، کالیبراسیون: احتمالات زنجیره افکار معمولاً نزدیک به ۰ یا ۱ هستند و به خوبی کالیبره نشدهاند — نویسندگان مجبور بودند آنها را برای تثبیت آموزش محدود کنند. سوم، این ادعا که روش به «هیچ برچسب انسانی» نیاز ندارد اغراقآمیز است، همانطور که بررسی Austin ML Journal Club اشاره کرد: انسانها قانون اساسی را نوشتند، انسانها دادههای مفید بودن را برچسبگذاری کردند و انسانها مدلهای نهایی را ارزیابی کردند. ورودی انسانی کمتر شده است، نه حذف.
نگرانی استفاده دوگانه که در مقاله مدفون شده است، شایسته توجه بیشتری است. تکنیکی که آموزش مدلهای پیرو قانون را به صورت ارزان آسان میکند، مانع آموزش ارزان مدلهایی که از قوانین مخرب پیروی میکنند را نیز کاهش میدهد. نویسندگان به آن اشاره کردهاند؛ اما آن را حل نکردهاند.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
مورد استفاده Bean Labs تقریباً یک جایگزین مستقیم است: «خروجیهای مضر» را با «نقض خطمشی حسابداری» جایگزین کنید و خط لوله CAI به یک معماری محتمل برای ایمنی بازنویسی تبدیل میشود. قانونی از قوانین حسابداری تعریف کنید — برخورد GAAP با هزینههای پیشپرداخت شده، محدودیتهای چارت حسابهای خاص شرکت، بررسی ترازهای دوطرفه، آستانههای تأیید — و SL-CAI را اجرا کنید تا به عامل آموزش دهید قبل از ثبت ورودیهای دفتر روزنامه، آنها را نقد کند. RL-CAI را اجرا کنید تا یک مدل پاداش را بر اساس قضاوتهای تولید شده توسط هوش مصنوعی در مورد اینکه کدام ورودی پیشنهادی مطابقتر است، آموزش دهید.
حالتهای شکست نیز مستقیماً ترجمه میشوند. گودهارتینگ در یک عامل حسابداری به این شکل خواهد بود که عامل یاد میگیرد به جای بررسی واقعی تطبیق، یک سلب مسئولیت کلیشهای را به هر ورودی پیوست کند — «این تراکنش ممکن است به اسناد اضافی نیاز داشته باشد». این مسلماً بدتر از نداشتن لایه ایمنی است، زیرا اطمینان کاذب ایجاد میکند. مشکل کالیبراسیون برای تصمیمگیریهای آستانهای مهم است: یک مدل پاداش بیش از حد مطمئن، امتیازات نزدیک به باینری میدهد که نقضهای جزئی خطمشی را نشان نمیدهد. و نگرانی استفاده دوگانه دوباره ظاهر میشود: همان تکنیک میتواند برای آموزش عاملی استفاده شود که به طور قابل اعتمادی از دستورالعملهای طراحی شده برای پنهان کردن تراکنشها پیروی میکند.
آنچه مقاله به آن نمیپردازد ثبات زمانی (temporal consistency) است — اینکه آیا یک عامل آموزش دیده با CAI قوانین را به طور یکنواخت در کل تاریخچه دفترکل اعمال میکند یا فقط به صورت محلی برای هر ورودی. این شکاف برای مغایرتگیری پایان ماه و جریانهای کاری چند مرحلهای مهم است.
چه چیزی را در ادامه بخوانیم
- هوش مصنوعی قانونمند جمعی: همسو کردن یک مدل زبانی با ورودیهای عمومی (FAccT 2024) — بررسی استفاده از منابع جمعی برای خود قانون اساسی؛ مستقیماً با نحوه استخراج قوانین حسابداری توسط Bean Labs از ذینفعان متعدد به جای کدگذاری یکجانبه آنها مرتبط است.
- اصول خاص در مقابل اصول کلی برای هوش مصنوعی قانونمند (arXiv:2310.13798) — آزمایش میکند که آیا یک اصل سطح بالا («آنچه برای بشریت بهترین است انجام دهید») میتواند جایگزین لیست طولانی از اصول خاص شود؛ پاسخ برای میزان دقت در مشخص کردن قوانین حسابداری در مقابل تکیه بر اخلاق مالی عمومی اهمیت دارد.
- جریان کاری RLHF برای مدلهای زبانی بزرگ (Ouyang et al., InstructGPT, arXiv:2203.02155) — خط پایه RLHF که CAI در حال بهبود آن است؛ درک نسخه اصلی به کالیبره کردن آنچه RLAIF واقعاً به دست میآورد کمک میکند.
