Mike Thrift
Marketing Manager
بنچمارک BIRD: شکاف پایگاهداده واقعی در مدلهای زبانی بزرگ Text-to-SQL
بنچمارک BIRD (NeurIPS 2023) مدلهای زبانی بزرگ را روی ۹۵ پایگاهداده واقعی آزمایش میکند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آنها به ۳۴.۸۸٪ دقت اجرا میرسد؛ شکافی ۲۰ واحدی که مستقیماً چالشهای ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف میکند.
استفاده تاییدپذیر و امن از ابزارها برای عاملهای مدل زبانی بزرگ: تلاقی STPA و MCP
پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عاملهای LLM از ابزارها پیشنهاد دادهاند. تایید مبتنی بر Alloy در یک مطالعه موردی زمانبندی تقویم، عدم وجود جریانهای ناامن را اثبات میکند.
GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرسوجو
پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخشبندی لایدن بر روی یک پیکره متنی ایجاد میکند و خلاصه انجمنها را از پیش محاسبه مینماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آنها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان میدهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابیهای مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو میپاشد.
FinAuditing: نمرات زیر ۱۴٪ مدلهای زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL
FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارشهای SEC XBRL آزمایش میکند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص میکند.
InvestorBench: ارزیابی مدلهای زبانی بزرگ در تصمیمگیریهای معاملاتی مالی
پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بکتست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش میکند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدلهای تنظیمشده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیشبینیکننده عملکرد است.
StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست میدهد
StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت میکند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریعتر اجرا میشود، در حالی که مسیریاب آموزشدیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.
برتری مدلهای زبانی بزرگ تکعاملی بر سیستمهای چندعاملی در استدلال چندگامی تحت بودجه یکسان توکنهای تفکر
پیشنویس ۲۰۲۶ استنفورد با یکسانسازی بودجه توکنهای تفکر در پنج معماری چندعاملی نشان میدهد که مدلهای زبانی بزرگ تکعاملی در استدلال چندگامی با سیستمهای چندعاملی برابری کرده یا از آنها پیشی میگیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عاملهای هوش مصنوعی در حوزه مالی دارد.
M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزهها و مدالیتههای مختلف موثر هستند؟
M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار میدهد و نشان میدهد که توهم جمعی عامل ۶۵٪ شکستها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش میدهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.
AGrail: نردههای حفاظتی امنیتی تطبیقی برای عاملهای مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف
AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی میکند که بررسیهای امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم میکند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود میکنند.
ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عاملهای LLM
سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریلهای مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکههای منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستمهای هوش مصنوعی مالی.
اطلس: پیشآموزش مشترک بازیاب-خوانشگر مدلهای زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست میدهد
اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست مییابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست میدهد. این کار از طریق پیشآموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیتهای دقت بازیابی، هزینههای زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستمهای پرسش و پاسخ دفتر کل Beancount را پوشش میدهد.
Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود میبخشد
معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آنها را در رمزگشا (decoder) ادغام میکند و در آزمونهای NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل میکند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount میپردازد، جایی که سنتز چندین ورودی در تراکنشها یک روال معمول است.