پرش به محتوای اصلی

Bean Labs Research Log

گوریلا: چگونه آموزش آگاه از بازیابی توهمات API در مدل‌های زبانی بزرگ را از ۷۸٪ به ۱۱٪ کاهش می‌دهد

گوریلا (Patil et al., NeurIPS 2024) یک مدل LLaMA 7B را با آموزش آگاه از بازیابی (RAT) بر روی مستندات API بازیابی شده تنظیم دقیق می‌کند و نرخ توهم را در مقایسه با GPT-4 از ۷۸٪ به ۱۱٪ کاهش می‌دهد. این موضوع پیامدهای مستقیمی برای عوامل هوش مصنوعی مالی دارد که در آن‌ها نام‌های حساب اشتباه یا علامت‌های معکوس، به جای مزاحمت، خطاهای جدی در صحت داده‌ها محسوب می‌شوند.

Latest articles

MemGPT: مدیریت فضای متنی مجازی برای عامل‌های مدل زبانی بزرگ (LLM)

MemGPT روش صفحه‌بندی حافظه مجازی به سبک سیستم‌عامل را در مدل‌های زبانی بزرگ (LLM) پیاده‌سازی می‌کند و با استفاده از ذخیره‌سازی سه‌لایه — حافظه کاری، بازخوانی و آرشیوی — به عامل‌ها قابلیت یادآوری پایدار در جلسات مختلف می‌دهد؛ در بنچمارک‌های چت چندجلسه‌ای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

سیستم SWE-agent (NeurIPS 2024) رابط‌های کاربری عامل-کامپیوتر (ACI) را معرفی می‌کند — لایه‌هایی که به طور خاص برای تعامل بین مدل‌های زبانی بزرگ (LLM) و محیط‌های نرم‌افزاری ساخته شده‌اند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان می‌دهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عامل‌های کدنویسی خودمختار است.

SWE-bench: آیا مدل‌های زبانی می‌توانند مسائل واقعی گیت‌هاب را حل کنند؟

SWE-bench مدل‌های زبانی را بر روی ۲,۲۹۴ مسئله واقعی گیت‌هاب در ۱۲ مخزن پایتون با استفاده از تست‌های مبتنی بر اجرا ارزیابی می‌کند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقع‌گرایانه حل کرد که بنچمارک استاندارد برای عامل‌های کدنویسی را ایجاد کرد و حالت‌های شکست در بازیابی و طول وصله را که مستقیماً به عامل‌های بازنویسی Beancount مربوط می‌شوند، آشکار ساخت.

CodeAct: چرا کدهای پایتون قابل اجرا، دقت عوامل LLM را ۲۰٪ افزایش می‌دهند

CodeAct (ICML 2024) فراخوانی ابزار مبتنی بر JSON را با کدهای پایتون قابل اجرا جایگزین می‌کند که نرخ موفقیت عوامل GPT-4 را در وظایف چند-ابزاری حدود ۲۰ درصد بهبود بخشیده و گام‌های تعاملی را ۳۰٪ کاهش می‌دهد — این موضوع پیامدهای مستقیمی برای ساخت عوامل مغایرت‌گیری قابل اعتماد در Beancount دارد.

مدل‌های زبانی بزرگ هنوز نمی‌توانند استدلال خود را اصلاح کنند — یافته‌های ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی

هوانگ و همکاران (ICLR 2024) نشان می‌دهند که مدل‌های زبانی بزرگ (LLM) وقتی بدون بازخورد بیرونی ملزم به بازبینی استدلال خود می‌شوند، به طور مداوم دچار کاهش دقت می‌شوند — دقت GPT-4 در GSM8K از ۹۵.۵٪ به ۹۱.۵٪ کاهش می‌یابد — و این موضوع چه معنایی برای طراحی عوامل قابل اعتماد ثبت دفتر روزنامه Beancount دارد.

درخت افکار: حل مسئله آگاهانه با جستجوی مدل‌های زبانی بزرگ

درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخه‌ای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست می‌یابد؛ این موضوع پیامدهای مستقیمی برای طبقه‌بندی مالی چندمرحله‌ای و بهینه‌سازی مالیاتی در جریان‌های کاری Beancount دارد.

CRITIC: چرا خوداصلاحی مدل‌های زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است

سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنال‌های ابزارهای خارجی برای بازنگری در مدل‌های زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عامل‌های مالی Beancount مطابقت دارد.

Reflexion: عامل‌های زبانی که بدون بازآموزی از اشتباهات خود می‌آموزند

روش Reflexion (ارائه شده در NeurIPS 2023) به عامل‌های LLM اجازه می‌دهد با ذخیره تحلیل‌های کلامی پس از شکست در یک بافر اپیزودیک، بدون نیاز به به‌روزرسانی وزن‌ها، عملکرد خود را بهبود بخشند. این روش در بنچمارک HumanEval با GPT-4 به دقت ۹۱٪ می‌رسد اما در WebShop شکست می‌خورد که نشان‌دهنده یک محدودیت ساختاری است؛ یادگیری تقویتی کلامی تنها زمانی کار می‌کند که ارزیاب سیگنالی شفاف و قابل اجرا تولید کند. در ادامه خواهیم دید که این موضوع برای ساخت یک عامل دفترکل خود-اصلاح‌گر Beancount چه معنایی دارد.

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونه‌برداری شده می‌شود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش می‌دهد — و مستقیماً در محاسبات مالی چندمرحله‌ای که در آن‌ها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.