پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عاملهای LLM از ابزارها پیشنهاد دادهاند. تایید مبتنی بر Alloy در یک مطالعه موردی زمانبندی تقویم، عدم وجود جریانهای ناامن را اثبات میکند.
پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخشبندی لایدن بر روی یک پیکره متنی ایجاد میکند و خلاص ه انجمنها را از پیش محاسبه مینماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آنها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان میدهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابیهای مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو میپاشد.
FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارشهای SEC XBRL آزمایش میکند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص میکند.
StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت میکند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریعتر اجرا میشود، در حالی که مسیریاب آموزشدیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.
اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست مییابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست میدهد. این کار از طریق پیشآموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیتهای دقت بازیابی، هزینههای زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستمهای پرسش و پاسخ دفتر کل Beancount را پوشش میدهد.
معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آنها را در رمزگشا (decoder) ادغام میکند و در آزمونهای NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل میکند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount میپردازد، جایی که سنتز چندین ورودی در تراکنشها یک روال معمول است.
بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیههای سال ۲۰۲۵ که نشان میدهد تکعاملها با بودجه مشابه با عملکرد مباحثه برابری میکنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکستهای مباحثه) خطرات خاصی برای ثبتهای دفتر کل به کمک هوش مصنوعی ایجاد میکند.
یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیشبینی سریهای زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود میبخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش میدهد. برای کاربردهای هوش مصنوعی مالی مانند پیشبینی موجودی Beancount، مدلهای سبک و تخصصی همواره مدلهای تغییر کاربری یافته LLM را شکست میدهند.
مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدلهای زبانی ۷ میلیارد پارامتری نشان میدهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست مییابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف میشود — با پیامدهای مستقیم برای طراحی عاملهای Beancount و هر سیستمی که به بهروزرسانیهای مکرر دانش نیاز دارد.
روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق میکند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تکمرحلهای دست مییابد؛ این روش نشان میدهد که با استراتژی بازیابی صحیح، یک مدل 3B میتواند بر GPT-3 175B غلبه کند.