بنچمارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی میکند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمیرود، و سازماندهی ترکیبی، نیت پنهان و انتقالهای دستورالعمل سه مورد از جدیترین حالتهای شکست هستند.
مقاله TACL 2024 توسط لیو و همکاران نشان میدهد که مدلهای زبانی بزرگ در اطلاعاتی که در میان زمینههای طولانی پنهان شدهاند، تا ۲۰ امتیاز ضعیفتر عمل میکنند — یک افت عملکرد U-شکل که بر تمام مدلهای آزمایششده از جمله Claude-1.3-100K تأثیر میگذارد — با پیامدهای ملموس برای نحوه ترتیببندی قطعات بازیابی شده در خط لولههای RAG در کاربردهای مالی و حسابداری.
بنچمارک OSWorld (NeurIPS 2024) عاملهای هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مکاواس ارزیابی میکند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکستها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.
StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت میکند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریعتر اجرا میشود، در حالی که مسیریاب آموزشدیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.
پیشنویس ۲۰۲۶ استنفورد با یکسانسازی بودجه توکنهای تفکر در پنج معماری چندعاملی نشان میدهد که مدلهای زبانی بزرگ تکعاملی در استدلال چندگامی با سیستمهای چندعاملی برابری کرده یا از آنها پیشی میگیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عاملهای هوش مصنوعی در حوزه مالی دارد.
Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش میدهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبهبندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافیها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیتهای بازتولید و پیامدهای آن برای ایجنتهای هوش مصنوعی مالی روی دفترکلهای Beancount است.
AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار میدهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متنباز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکستهای گراف دانش، خطاهای قالببندی در ۵۳.۳٪ از شکستهای پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسکهای استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.
MemGPT روش صفحهبندی حافظه مجازی به سبک سیستمعامل را در مدلهای زبانی بزرگ (LLM) پیادهسازی میکند و با استفاده از ذخیرهسازی سهلایه — حافظه کاری، بازخوانی و آرشیوی — به عاملها قابلیت یادآوری پایدار در جلسات مختلف میدهد؛ در بنچمارکهای چت چندجلسهای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.