بنچمارک GAIA: اندازهگیری آنچه مدلهای هوش مصنوعی پیشرو واقعاً میتوانند انجام دهند
بعد از مطالعه WebArena و OSWorld — دو بنچمارکی که در آنها عوامل (Agents) در تعاملات سطح پیکسل با وب و دسکتاپ به شدت دچار مشکل میشوند — میخواستم به عقب برگردم و نگاهی به یک بنچمارک مکمل بیندازم که عمداً از آن چارچوب دوری میکند. GAIA (میالون و همکاران، ICLR 2024) دستیارهای هوش مصنوعی همهمنظوره را با سوالاتی ارزیابی میکند که «از نظر مفهومی برای انسانها ساده، اما برای پیشرفتهترین هوشهای مصنوعی چالشبرانگیز هستند»، که این امر آن را به معیاری مستقیمتر برای سنجش قابلیت عامل خودمختاری تبدیل میکند که یک دستیار Beancount واقعاً به آن نیاز دارد.
مقاله
GAIA یک سوال اساسی میپرسد: اگر چارچوب آزمونهای تخصصی-حرفهای را که اکثر بنچمارکهای LLM را تعریف میکنند (مانند آزمون وکالت، بردهای پزشکی، ریاضیات مقطع تحصیلات تکمیلی) کنار بگذاریم، مدلهای پیشرو در وظایف روزمره تحقیق و استدلالی که یک دستیار انسانی از پس آنها برمیآید، واقعاً چگونه عمل میکنند؟ میالون، فوریه، سویفت، ولف، لکان و سیالوم ۴۶۶ سوال دنیای واقعی را گردآوری کردند که نیازمند وبگردی، اجرای کد، درک چندوجهی و استدلال چندمرحلهای هستند — اما پاسخ نهایی آنها به اندازه کافی صریح و مختصر هست که بتوان به طور خودکار آن را تایید کرد.
این بنچمارک در سه سطح طبقهبندی شده است. سطح ۱ (حدود ۱۴۶ سوال) انتظار حل مسائل در کمتر از پنج مرحله با حداقل استفاده از ابزار را دارد. سطح ۲ (حدود ۲۴۵ سوال) نیازمند هماهنگی صحیح چندین ابزار در پنج تا ده مرحله است. سطح ۳ (حدود ۷۵ سوال) مستلزم برنامهریزی بلندمدت و ادغام پیچیده ابزارهاست. این یک طبقهبندی دلبخواهی نیست: این سطوح مستقیماً سربار هماهنگی را که عوامل خودمختار باید تحمل کنند، دنبال میکنند.
ایدههای کلیدی
- انسانها در مجموع نمره ۹۲٪ میگیرند. GPT-4 با پلاگینها در زمان انتشار تنها ۱۵٪ امتیاز گرفت — یک شکاف ۷۷ امتیازی در وظایفی که یک فرد لایق در چند دقیقه حل میکند.
- این بنچمارک در برابر «بازیسازی» (gaming) به گونهای مقاومت میکند که بنچمارکهای آزمونی نمیتوانند: پاسخها نیازمند یافتن حقایق ایندکسنشده، انجام محاسبات یا ترکیب مودهای مختلف هستند، بنابراین بازخوانی اطلاعات از مرحله پیشآموزش به تنهایی به ندرت جواب میدهد.
- سه سطح مشخص میکنند که خط لوله (pipeline) عوامل در کجا واقعاً از هم میپاشد: سطح ۱ پاداشی برای بازیابی خوب اطلاعات است؛ سطح ۲ خطاهای انباشته در فراخوانی ابزارها را جریمه میکند؛ سطح ۳ نیازمند ردیابی مداوم هدف در مراحل بسیار است، کاری که هیچ سیستمی در زمان انتشار نمیتوانست به طور قابل اعتماد انجام دهد.
- سوالات از قصد صریح طراحی شدهاند — هر کدام یک پاسخ کوتاه درست دارند — که ارزیابی خودکار را قابل اعتماد میکند، اما نوع وظیفه را نیز به جای استدلال آزاد، به «جستجو-و-استخراج» محدود میکند.
- تا اواسط سال ۲۰۲۶، بهترین عامل گزارش شده عمومی در جدول امتیازات HAL (مدل Claude Sonnet 4.5) به ۷۴.۵۵٪ در کل میرسد: ۸۲٪ در سطح ۱، ۷۳٪ در سطح ۲ و ۶۵٪ در سطح ۳. عملکرد انسانی هنوز در حدود ۹۲٪ باقی مانده است، بنابراین سطح ۳ همچنان یک شکاف معنادار دارد.
- مجموعه اعتبارسنجی اکنون به طور گسترده در دسترس است و تقریباً به طور قطع به دادههای آموزشی نفوذ کرده است، که باعث میشود نمرات مجموعه اعتبارسنجی مدلهای جدیدتر اساساً غیرقابل تفسیر باشند. مجموعه تست نگهداری شده تمیزتر باقی مانده اما برای خودارزیابی غیرقابل دسترسی است.
چه چیزی پابرجا میماند — و چه چیزی نه
بینش اصلی — اینکه LLMهای پیشرو در وظایف کاربردی دستیار، فرسنگها با استحکام در سطح انسانی فاصله دارند — در اواخر سال ۲۰۲۳ واقعاً مهم بود و موج سازندهای از تحقیقات مبتنی بر عامل را برانگیخت. ساختار سه سطحی به خوبی تنظیم شده است: سطح ۱ و سطح ۳ در لایههای قابلیتی کاملاً متفاوتی قرار دارند و بنچمارک در یک نقطه حداکثری متوقف نمیشود.
جایی که مقاله قدیمی بودنش را نشان میدهد در تنظیمات ارزیابی است. خط پایه «GPT-4 با پلاگینها» تا زمان برگزاری ICLR 2024 منسوخ شده بود؛ عوامل مدرن با استفاده از Claude 3.7 Sonnet یا Claude Sonnet 4.5 بخش زیادی از شکاف سطوح ۱ و ۲ را پر کردهاند. جدیتر اینکه حدود ۵٪ از سوالات در پاسخهای مرجع دارای خطا یا ابهام هستند و نویسندگان با وجود اذعان به این موضوع، مجموعه داده اصلاحشدهای منتشر نکردهاند. این یک مشکل عدم اطمینان غیرقابل چشمپوشی برای یک بنچمارک با ۴۶۶ سوال است.
محدودیت عمیقتر، فرمت پاسخ است. GAIA به این دلیل کار میکند که هر پاسخ یک رشته متنی کوتاه و قابل تایید است. این محدودیت وظایف را به «جستجوی چیزی و محاسبه یا تبدیل آن» محدود میکند، نه «پیشنویس یک برنامه، اجرا و تولید یک محصول ساختاریافته». موارد استفاده واقعی Beancount — مغایرتگیری تراکنشهای یک ماه، نوشتن ورودی دفتر روزنامه برای یک معامله چندمرحلهای، تولید گزارش پایان سال — با این قالب سازگار نیستند. GAIA یک جنبه از آنچه یک دستیار عمومی نیاز دارد را اندازهگیری میکند؛ اما اجرای گردشکار سرتاسری (end-to-end) را نمیسنجد.
وضعیت آلودگی دادهها اکنون جدی است. هر عاملی که دقت مجموعه اعتبارسنجی را به عنوان عدد اصلی خود بدون اقدامات احتیاطی صریح لیست میکند، باید با تردید به آن نگریست. موقعیت صدرنشینان در مورد مدلهای جدیدتر به احتمال زیاد، تا حدی، بازتابدهنده همپوشانی با دادههای آموزشی است.
چرا این برای هوش مصنوعی در حوزه مالی مهم است
مسیر ۱۵٪ به ۷۴٪ در طول دو سال و نیم دلگرمکننده است، اما شکاف باقیمانده در سطح ۳ دقیقاً همان جایی است که اتوماسیون Beancount در آن زندگی میکند. وظایف سطح ۳ نیازمند ردیابی یک وضعیت میانی در مراحل بسیار بدون گم کردن هدف هستند — دقیقاً همان کاری که یک عامل ثبت دادههای دفترکل باید هنگام فراخوانی موجودی حسابها، اعمال قانون مغایرتگیری، بررسی نتیجه در برابر محدودیتها و سپس نهایی کردن یا بازگشت به عقب انجام دهد. اگر عوامل پیشرو هنوز در ۳۵٪ از سوالات سطح ۳ GAIA شکست میخورند، که از نظر مفهومی برای انسانها ساده هستند، این یک هشدار مستقیم درباره قابلیت اطمینان برای عملیات چندمرحلهای دفترکل است.
اصل طراحی GAIA — صریح، قابل تایید، قابل حل توسط انسان — همچنین الگوی مفیدی برای ارزیابی عوامل Beancount است. من به این فکر کردهام که یک مجموعه «FinGAIA» چگونه خواهد بود: سوالاتی مانند «با توجه به این فایل دفترکل، کدام حساب در پایان ماه دارای برداشت بیش از حد است؟» یا «معادل دلاری موجودی یورو در تاریخ ۲۰۲۴-۱۲-۳۱ چقدر است؟» که صریح هستند، به استفاده از ابزار نیاز دارند و در سه سطح پیچیدگی به طور تدریجی دشوار میشوند. روششناسی GAIA مستقیماً قابل ترجمه است؛ فقط حوزه (domain) نیاز به جایگزینی دارد.
یک چیزی که GAIA به آن نمیپردازد — و Bean Labs باید در نهایت آن را حل کند — ثبت ایمن دادهها (safe write-back) است. تمام وظایف GAIA از نوع بخوان-و-پاسخبده هستند. یک عامل خودمختار Beancount که وضعیت دفترکل را تغییر میدهد، به یک پروتکل ارزیابی مجزا برای صحت، تجزیهناپذیری و برگشتپذیری نیاز دارد. GAIA نشان میدهد که عوامل میتوانند پاسخ درست را پیدا کنند؛ اما چیزی در مورد اینکه آیا میتوانند آن را به صورت ایمن ثبت کنند نمیگوید.
چه چیز دیگری بخوانیم
- TheAgentCompany (arXiv:2412.14161) — ۱۷۵ وظیفه در یک شرکت نرمافزاری شبیهسازی شده با ابزارهای داخلی واقعی؛ بهترین عامل ۲۴٪ را به طور خودمختار انجام میدهد؛ مستقیمترین مشابه برای ارزیابی یک عامل Beancount که در یک گردشکار حسابداری واقعی تعبیه شده است.
- AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — بنچمارک عوامل وب در وظایف واقعگرایانه و زمانبر که توسط کاربران واقعی ارسال شده است؛ مکمل GAIA با آزمایش بازیابی با پایان باز به جای پاسخهای ثابت و قابل تایید.
- WorkArena++ (arXiv:2407.05291) — گسترش WorkArena به ۶۸۲ وظیفه سازمانی ترکیبی و چندمرحلهای؛ سختترین وظایف (سطح ۳) توسط هیچ مدل فعلی حل نشده باقی مانده است، که آن را به مرز بعدی دشواری پس از سطح ۳ GAIA تبدیل میکند.
