هوش مصنوعی قانونمند برای عوامل حسابداری: RLAIF، قوانین خطمشی و ریسکهای گودهارت
مقاله هوش مصنوعی قانونمند آنتروپیک (بای و همکاران، ۲۰۲۲) مدلهای زب انی بزرگ را آموزش میدهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسبهای آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی میکند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق میشود — و زمانی که «قانون اساسی» به جای مجموعهای از قوانین اخلاقی، یک چارت حسابها باشد، گودهارتینگ، شکستهای کالیبراسیون و ریسکهای استفاده دوگانه چگونه به نظر میرسند.
