StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت میکند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریعتر اجرا میشود، در حالی که مسیریاب آموزشدیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.
پیشنویس ۲۰۲۶ استنفورد با یکسانسازی بودجه توکنهای تفکر در پنج معماری چندعاملی نشان میدهد که مدلهای زبانی بزرگ تکعاملی در استدلال چندگامی با سیستمهای چندعاملی برابری کرده یا از آنها پیشی میگیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عاملهای هوش مصنوعی در حوزه مالی دارد.
M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار میدهد و نشان میدهد که توهم جمعی عامل ۶۵٪ شکستها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش میدهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.
AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی میکند که بررسیهای امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم میکند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود میکنند.
سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریلهای مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکههای منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستمهای هوش مصنوعی مالی.
اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست مییابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست میدهد. این کار از طریق پیشآموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیتهای دقت بازیابی، هزینههای زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستمهای پرسش و پاسخ دفتر کل Beancount را پوشش میدهد.
معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آنها را در رمزگشا (decoder) ادغام میکند و در آزمونهای NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل میکند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount میپردازد، جایی که سنتز چندین ورودی در تراکنشها یک روال معمول است.
سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار میدهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاستها و ۱۰۰ درصد نرخ تکمیل وظایف دست مییابد، در حالی که قواعد امنیتی تعبیهشده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف میشوند.
بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیههای سال ۲۰۲۵ که نشان میدهد تکعاملها با بودجه مشابه با عملکرد مباحثه برابری میکنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکستهای مباحثه) خطرات خاصی برای ثبتهای دفتر کل به کمک هوش مصنوعی ایجاد میکند.