Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

مشاهده تمام نویسندگان

بنچمارک BIRD: شکاف پایگاه‌داده واقعی در مدل‌های زبانی بزرگ Text-to-SQL
·mike

بنچمارک BIRD: شکاف پایگاه‌داده واقعی در مدل‌های زبانی بزرگ Text-to-SQL

بنچمارک BIRD (NeurIPS 2023) مدل‌های زبانی بزرگ را روی ۹۵ پایگاه‌داده واقعی آزمایش می‌کند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آن‌ها به ۳۴.۸۸٪ دقت اجرا می‌رسد؛ شکافی ۲۰ واحدی که مستقیماً چالش‌های ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف می‌کند.

beancount
ai
llm
database
+3
استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP
·mike

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

ai
llm
security
automation
+3
GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو
·mike

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.

ai
llm
machine-learning
beancount
+3
FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL
·mike

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارش‌های SEC XBRL آزمایش می‌کند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص می‌کند.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی
·mike

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بک‌تست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش می‌کند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدل‌های تنظیم‌شده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیش‌بینی‌کننده عملکرد است.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد
·mike

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت می‌کند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریع‌تر اجرا می‌شود، در حالی که مسیریاب آموزش‌دیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.

ai
llm
machine-learning
beancount
+3
برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر
·mike

برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر

پیش‌نویس ۲۰۲۶ استنفورد با یکسان‌سازی بودجه توکن‌های تفکر در پنج معماری چندعاملی نشان می‌دهد که مدل‌های زبانی بزرگ تک‌عاملی در استدلال چندگامی با سیستم‌های چندعاملی برابری کرده یا از آن‌ها پیشی می‌گیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عامل‌های هوش مصنوعی در حوزه مالی دارد.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزه‌ها و مدالیته‌های مختلف موثر هستند؟
·mike

M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزه‌ها و مدالیته‌های مختلف موثر هستند؟

M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار می‌دهد و نشان می‌دهد که توهم جمعی عامل ۶۵٪ شکست‌ها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش می‌دهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.

ai
llm
machine-learning
automation
+3
AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف
·mike

AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف

AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی می‌کند که بررسی‌های امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم می‌کند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود می‌کنند.

ai
llm
security
automation
+3
ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM
·mike

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریل‌های مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکه‌های منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستم‌های هوش مصنوعی مالی.

ai
llm
machine-learning
security
+4
اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد
·mike

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست می‌دهد. این کار از طریق پیش‌آموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیت‌های دقت بازیابی، هزینه‌های زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستم‌های پرسش و پاسخ دفتر کل Beancount را پوشش می‌دهد.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد
·mike

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آن‌ها را در رمزگشا (decoder) ادغام می‌کند و در آزمون‌های NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل می‌کند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount می‌پردازد، جایی که سنتز چندین ورودی در تراکنش‌ها یک روال معمول است.

ai
machine-learning
llm
beancount
+2
نمایش 37–48 از 87 پست