پرش به محتوای اصلی

بنچمارک GAIA: اندازه‌گیری آنچه مدل‌های هوش مصنوعی پیشرو واقعاً می‌توانند انجام دهند

· زمان مطالعه 8 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

بعد از مطالعه WebArena و OSWorld — دو بنچمارکی که در آن‌ها عوامل (Agents) در تعاملات سطح پیکسل با وب و دسکتاپ به شدت دچار مشکل می‌شوند — می‌خواستم به عقب برگردم و نگاهی به یک بنچمارک مکمل بیندازم که عمداً از آن چارچوب دوری می‌کند. GAIA (میالون و همکاران، ICLR 2024) دستیارهای هوش مصنوعی همه‌منظوره را با سوالاتی ارزیابی می‌کند که «از نظر مفهومی برای انسان‌ها ساده، اما برای پیشرفته‌ترین هوش‌های مصنوعی چالش‌برانگیز هستند»، که این امر آن را به معیاری مستقیم‌تر برای سنجش قابلیت عامل خودمختاری تبدیل می‌کند که یک دستیار Beancount واقعاً به آن نیاز دارد.

مقاله

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA یک سوال اساسی می‌پرسد: اگر چارچوب آزمون‌های تخصصی-حرفه‌ای را که اکثر بنچمارک‌های LLM را تعریف می‌کنند (مانند آزمون وکالت، بردهای پزشکی، ریاضیات مقطع تحصیلات تکمیلی) کنار بگذاریم، مدل‌های پیشرو در وظایف روزمره تحقیق و استدلالی که یک دستیار انسانی از پس آن‌ها برمی‌آید، واقعاً چگونه عمل می‌کنند؟ میالون، فوریه، سویفت، ولف، لکان و سیالوم ۴۶۶ سوال دنیای واقعی را گردآوری کردند که نیازمند وب‌گردی، اجرای کد، درک چندوجهی و استدلال چندمرحله‌ای هستند — اما پاسخ نهایی آن‌ها به اندازه کافی صریح و مختصر هست که بتوان به طور خودکار آن را تایید کرد.

این بنچمارک در سه سطح طبقه‌بندی شده است. سطح ۱ (حدود ۱۴۶ سوال) انتظار حل مسائل در کمتر از پنج مرحله با حداقل استفاده از ابزار را دارد. سطح ۲ (حدود ۲۴۵ سوال) نیازمند هماهنگی صحیح چندین ابزار در پنج تا ده مرحله است. سطح ۳ (حدود ۷۵ سوال) مستلزم برنامه‌ریزی بلندمدت و ادغام پیچیده ابزارهاست. این یک طبقه‌بندی دلبخواهی نیست: این سطوح مستقیماً سربار هماهنگی را که عوامل خودمختار باید تحمل کنند، دنبال می‌کنند.

ایده‌های کلیدی

  • انسان‌ها در مجموع نمره ۹۲٪ می‌گیرند. GPT-4 با پلاگین‌ها در زمان انتشار تنها ۱۵٪ امتیاز گرفت — یک شکاف ۷۷ امتیازی در وظایفی که یک فرد لایق در چند دقیقه حل می‌کند.
  • این بنچمارک در برابر «بازی‌سازی» (gaming) به گونه‌ای مقاومت می‌کند که بنچمارک‌های آزمونی نمی‌توانند: پاسخ‌ها نیازمند یافتن حقایق ایندکس‌نشده، انجام محاسبات یا ترکیب مودهای مختلف هستند، بنابراین بازخوانی اطلاعات از مرحله پیش‌آموزش به تنهایی به ندرت جواب می‌دهد.
  • سه سطح مشخص می‌کنند که خط لوله (pipeline) عوامل در کجا واقعاً از هم می‌پاشد: سطح ۱ پاداشی برای بازیابی خوب اطلاعات است؛ سطح ۲ خطاهای انباشته در فراخوانی ابزارها را جریمه می‌کند؛ سطح ۳ نیازمند ردیابی مداوم هدف در مراحل بسیار است، کاری که هیچ سیستمی در زمان انتشار نمی‌توانست به طور قابل اعتماد انجام دهد.
  • سوالات از قصد صریح طراحی شده‌اند — هر کدام یک پاسخ کوتاه درست دارند — که ارزیابی خودکار را قابل اعتماد می‌کند، اما نوع وظیفه را نیز به جای استدلال آزاد، به «جستجو-و-استخراج» محدود می‌کند.
  • تا اواسط سال ۲۰۲۶، بهترین عامل گزارش شده عمومی در جدول امتیازات HAL (مدل Claude Sonnet 4.5) به ۷۴.۵۵٪ در کل می‌رسد: ۸۲٪ در سطح ۱، ۷۳٪ در سطح ۲ و ۶۵٪ در سطح ۳. عملکرد انسانی هنوز در حدود ۹۲٪ باقی مانده است، بنابراین سطح ۳ همچنان یک شکاف معنادار دارد.
  • مجموعه اعتبارسنجی اکنون به طور گسترده در دسترس است و تقریباً به طور قطع به داده‌های آموزشی نفوذ کرده است، که باعث می‌شود نمرات مجموعه اعتبارسنجی مدل‌های جدیدتر اساساً غیرقابل تفسیر باشند. مجموعه تست نگهداری شده تمیزتر باقی مانده اما برای خودارزیابی غیرقابل دسترسی است.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

بینش اصلی — اینکه LLMهای پیشرو در وظایف کاربردی دستیار، فرسنگ‌ها با استحکام در سطح انسانی فاصله دارند — در اواخر سال ۲۰۲۳ واقعاً مهم بود و موج سازنده‌ای از تحقیقات مبتنی بر عامل را برانگیخت. ساختار سه سطحی به خوبی تنظیم شده است: سطح ۱ و سطح ۳ در لایه‌های قابلیتی کاملاً متفاوتی قرار دارند و بنچمارک در یک نقطه حداکثری متوقف نمی‌شود.

جایی که مقاله قدیمی بودنش را نشان می‌دهد در تنظیمات ارزیابی است. خط پایه «GPT-4 با پلاگین‌ها» تا زمان برگزاری ICLR 2024 منسوخ شده بود؛ عوامل مدرن با استفاده از Claude 3.7 Sonnet یا Claude Sonnet 4.5 بخش زیادی از شکاف سطوح ۱ و ۲ را پر کرده‌اند. جدی‌تر اینکه حدود ۵٪ از سوالات در پاسخ‌های مرجع دارای خطا یا ابهام هستند و نویسندگان با وجود اذعان به این موضوع، مجموعه داده اصلاح‌شده‌ای منتشر نکرده‌اند. این یک مشکل عدم اطمینان غیرقابل چشم‌پوشی برای یک بنچمارک با ۴۶۶ سوال است.

محدودیت عمیق‌تر، فرمت پاسخ است. GAIA به این دلیل کار می‌کند که هر پاسخ یک رشته متنی کوتاه و قابل تایید است. این محدودیت وظایف را به «جستجوی چیزی و محاسبه یا تبدیل آن» محدود می‌کند، نه «پیش‌نویس یک برنامه، اجرا و تولید یک محصول ساختاریافته». موارد استفاده واقعی Beancount — مغایرت‌گیری تراکنش‌های یک ماه، نوشتن ورودی دفتر روزنامه برای یک معامله چندمرحله‌ای، تولید گزارش پایان سال — با این قالب سازگار نیستند. GAIA یک جنبه از آنچه یک دستیار عمومی نیاز دارد را اندازه‌گیری می‌کند؛ اما اجرای گردش‌کار سرتاسری (end-to-end) را نمی‌سنجد.

وضعیت آلودگی داده‌ها اکنون جدی است. هر عاملی که دقت مجموعه اعتبارسنجی را به عنوان عدد اصلی خود بدون اقدامات احتیاطی صریح لیست می‌کند، باید با تردید به آن نگریست. موقعیت صدرنشینان در مورد مدل‌های جدیدتر به احتمال زیاد، تا حدی، بازتاب‌دهنده هم‌پوشانی با داده‌های آموزشی است.

چرا این برای هوش مصنوعی در حوزه مالی مهم است

مسیر ۱۵٪ به ۷۴٪ در طول دو سال و نیم دلگرم‌کننده است، اما شکاف باقی‌مانده در سطح ۳ دقیقاً همان جایی است که اتوماسیون Beancount در آن زندگی می‌کند. وظایف سطح ۳ نیازمند ردیابی یک وضعیت میانی در مراحل بسیار بدون گم کردن هدف هستند — دقیقاً همان کاری که یک عامل ثبت داده‌های دفترکل باید هنگام فراخوانی موجودی حساب‌ها، اعمال قانون مغایرت‌گیری، بررسی نتیجه در برابر محدودیت‌ها و سپس نهایی کردن یا بازگشت به عقب انجام دهد. اگر عوامل پیشرو هنوز در ۳۵٪ از سوالات سطح ۳ GAIA شکست می‌خورند، که از نظر مفهومی برای انسان‌ها ساده هستند، این یک هشدار مستقیم درباره قابلیت اطمینان برای عملیات چندمرحله‌ای دفترکل است.

اصل طراحی GAIA — صریح، قابل تایید، قابل حل توسط انسان — همچنین الگوی مفیدی برای ارزیابی عوامل Beancount است. من به این فکر کرده‌ام که یک مجموعه «FinGAIA» چگونه خواهد بود: سوالاتی مانند «با توجه به این فایل دفترکل، کدام حساب در پایان ماه دارای برداشت بیش از حد است؟» یا «معادل دلاری موجودی یورو در تاریخ ۲۰۲۴-۱۲-۳۱ چقدر است؟» که صریح هستند، به استفاده از ابزار نیاز دارند و در سه سطح پیچیدگی به طور تدریجی دشوار می‌شوند. روش‌شناسی GAIA مستقیماً قابل ترجمه است؛ فقط حوزه (domain) نیاز به جایگزینی دارد.

یک چیزی که GAIA به آن نمی‌پردازد — و Bean Labs باید در نهایت آن را حل کند — ثبت ایمن داده‌ها (safe write-back) است. تمام وظایف GAIA از نوع بخوان-و-پاسخ‌بده هستند. یک عامل خودمختار Beancount که وضعیت دفترکل را تغییر می‌دهد، به یک پروتکل ارزیابی مجزا برای صحت، تجزیه‌ناپذیری و برگشت‌پذیری نیاز دارد. GAIA نشان می‌دهد که عوامل می‌توانند پاسخ درست را پیدا کنند؛ اما چیزی در مورد اینکه آیا می‌توانند آن را به صورت ایمن ثبت کنند نمی‌گوید.

چه چیز دیگری بخوانیم

  • TheAgentCompany (arXiv:2412.14161) — ۱۷۵ وظیفه در یک شرکت نرم‌افزاری شبیه‌سازی شده با ابزارهای داخلی واقعی؛ بهترین عامل ۲۴٪ را به طور خودمختار انجام می‌دهد؛ مستقیم‌ترین مشابه برای ارزیابی یک عامل Beancount که در یک گردش‌کار حسابداری واقعی تعبیه شده است.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — بنچمارک عوامل وب در وظایف واقع‌گرایانه و زمان‌بر که توسط کاربران واقعی ارسال شده است؛ مکمل GAIA با آزمایش بازیابی با پایان باز به جای پاسخ‌های ثابت و قابل تایید.
  • WorkArena++ (arXiv:2407.05291) — گسترش WorkArena به ۶۸۲ وظیفه سازمانی ترکیبی و چندمرحله‌ای؛ سخت‌ترین وظایف (سطح ۳) توسط هیچ مدل فعلی حل نشده باقی مانده است، که آن را به مرز بعدی دشواری پس از سطح ۳ GAIA تبدیل می‌کند.