پرش به محتوای اصلی

Bean Labs Research Log

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بک‌تست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش می‌کند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدل‌های تنظیم‌شده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیش‌بینی‌کننده عملکرد است.

Latest articles

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت می‌کند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریع‌تر اجرا می‌شود، در حالی که مسیریاب آموزش‌دیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.

برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر

پیش‌نویس ۲۰۲۶ استنفورد با یکسان‌سازی بودجه توکن‌های تفکر در پنج معماری چندعاملی نشان می‌دهد که مدل‌های زبانی بزرگ تک‌عاملی در استدلال چندگامی با سیستم‌های چندعاملی برابری کرده یا از آن‌ها پیشی می‌گیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عامل‌های هوش مصنوعی در حوزه مالی دارد.

M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزه‌ها و مدالیته‌های مختلف موثر هستند؟

M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار می‌دهد و نشان می‌دهد که توهم جمعی عامل ۶۵٪ شکست‌ها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش می‌دهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.

AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف

AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی می‌کند که بررسی‌های امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم می‌کند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود می‌کنند.

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریل‌های مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکه‌های منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستم‌های هوش مصنوعی مالی.

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست می‌دهد. این کار از طریق پیش‌آموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیت‌های دقت بازیابی، هزینه‌های زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستم‌های پرسش و پاسخ دفتر کل Beancount را پوشش می‌دهد.

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آن‌ها را در رمزگشا (decoder) ادغام می‌کند و در آزمون‌های NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل می‌کند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount می‌پردازد، جایی که سنتز چندین ورودی در تراکنش‌ها یک روال معمول است.

GuardAgent: اعمال امنیت قطعی برای عامل‌های LLM از طریق اجرای کد

سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار می‌دهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاست‌ها و ۱۰۰ درصد نرخ تکمیل وظایف دست می‌یابد، در حالی که قواعد امنیتی تعبیه‌شده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف می‌شوند.

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیه‌های سال ۲۰۲۵ که نشان می‌دهد تک‌عامل‌ها با بودجه مشابه با عملکرد مباحثه برابری می‌کنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکست‌های مباحثه) خطرات خاصی برای ثبت‌های دفتر کل به کمک هوش مصنوعی ایجاد می‌کند.