پیشنویس ۲۰۲۶ استنفورد با یکسانسازی بودجه توکنهای تفکر در پنج معماری چندعاملی نشان میدهد که مدلهای زبانی بزرگ تکعاملی در استدلال چندگامی با سیستمهای چندعاملی برابری کرده یا از آنها پیشی میگیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عاملهای هوش مصنوعی در حوزه مالی دارد.
M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار میدهد و نشان میدهد که توهم جمعی عامل ۶۵٪ شکستها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش میدهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.
AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی میکند که بررسیهای امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم میکند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود میکنند.
سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریلهای مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکههای منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستمهای هوش مصنوعی مالی.
اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست مییابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست میدهد. این کار از طریق پیشآموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیتهای دقت بازیابی، هزینههای زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستمهای پرسش و پاسخ دفتر کل Beancount را پوشش میدهد.
معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آنها را در رمزگشا (decoder) ادغام میکند و در آزمونهای NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل میکند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount میپردازد، جایی که سنتز چندین ورودی در تراکنشها یک روال معمول است.
سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار میدهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاستها و ۱۰۰ درصد نرخ تکمیل وظایف دست مییابد، در حالی که قواعد امنیتی تعبیهشده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف میشوند.
بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیههای سال ۲۰۲۵ که نشان میدهد تکعاملها با بودجه مشابه با عملکرد مباحثه برابری میکنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکستهای مباحثه) خطرات خاصی برای ثبتهای دفتر کل به کمک هوش مصنوعی ایجاد میکند.
یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیشبینی سریهای زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود میبخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش میدهد. برای کاربردهای هوش مصنوعی مالی مانند پیشبینی موجودی Beancount، مدلهای سبک و تخصصی همواره مدلهای تغییر کاربری یافته LLM را شکست میدهند.
AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.