پرش به محتوای اصلی

Bean Labs Research Log

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

بنچمارک τ-bench نشان می‌دهد که مدل‌های زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خرده‌فروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط می‌کنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.

Latest articles

Chain-of-Table: تکامل جداول در زنجیره استدلال مدل‌های زبانی بزرگ

روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدل‌های زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود می‌بخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدل‌های پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عامل‌های پرس‌وجوی دفتر کل Beancount.

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق می‌کند و در وظایف ساختاری مانند برچسب‌گذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی می‌گیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب می‌ماند — معیاری دقیق برای آنچه مدل‌های متن‌باز ۷ میلیاردی امروزه در هوش مصنوعی مالی می‌توانند و نمی‌توانند انجام دهند.

TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount

مدل TAPAS (تحقیقات گوگل، ACL 2020) به سوالات جدولی با انتخاب سلول‌ها و اعمال تجمیع‌های اسکالر پاسخ می‌دهد - بدون تولید SQL. این پست معماری آن، افزایش ۱۲ امتیازی دقت SQA، و چرایی تناسب الگوی انتخاب سلول برای پرس‌وجوهای کوچک دفترکل Beancount اما شکست آن در مقیاس بزرگ را تحلیل می‌کند.

MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل

مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخاب‌گر برای کاهش طرحواره، تجزیه‌کننده برای شکستن سوال و اصلاح‌کننده برای تصحیح SQL مبتنی بر اجرا — استفاده می‌کند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیل‌ها نشان می‌دهد که عامل اصلاح‌کننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرس‌وجو در دفاتر کل Beancount دارد.

DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL

DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقه‌بندی پیچیدگی و تولید SQL تجزیه می‌کند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش می‌دهد — و همین استراتژی تجزیه مستقیماً بر رابط‌های زبان طبیعی برای زبان پرس‌وجوی BQL در Beancount قابل انطباق است.

بنچمارک BIRD: شکاف پایگاه‌داده واقعی در مدل‌های زبانی بزرگ Text-to-SQL

بنچمارک BIRD (NeurIPS 2023) مدل‌های زبانی بزرگ را روی ۹۵ پایگاه‌داده واقعی آزمایش می‌کند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آن‌ها به ۳۴.۸۸٪ دقت اجرا می‌رسد؛ شکافی ۲۰ واحدی که مستقیماً چالش‌های ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف می‌کند.

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارش‌های SEC XBRL آزمایش می‌کند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص می‌کند.