Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: مدیریت فضای متنی مجازی برای عامل‌های مدل زبانی بزرگ (LLM)

MemGPT روش صفحه‌بندی حافظه مجازی به سبک سیستم‌عامل را در مدل‌های زبانی بزرگ (LLM) پیاده‌سازی می‌کند و با استفاده از ذخیره‌سازی سه‌لایه — حافظه کاری، بازخوانی و آرشیوی — به عامل‌ها قابلیت یادآوری پایدار در جلسات مختلف می‌دهد؛ در بنچمارک‌های چت چندجلسه‌ای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

سیستم SWE-agent (NeurIPS 2024) رابط‌های کاربری عامل-کامپیوتر (ACI) را معرفی می‌کند — لایه‌هایی که به طور خاص برای تعامل بین مدل‌های زبانی بزرگ (LLM) و محیط‌های نرم‌افزاری ساخته شده‌اند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان می‌دهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عامل‌های کدنویسی خودمختار است.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: آیا مدل‌های زبانی می‌توانند مسائل واقعی گیت‌هاب را حل کنند؟

SWE-bench مدل‌های زبانی را بر روی ۲,۲۹۴ مسئله واقعی گیت‌هاب در ۱۲ مخزن پایتون با استفاده از تست‌های مبتنی بر اجرا ارزیابی می‌کند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقع‌گرایانه حل کرد که بنچمارک استاندارد برای عامل‌های کدنویسی را ایجاد کرد و حالت‌های شکست در بازیابی و طول وصله را که مستقیماً به عامل‌های بازنویسی Beancount مربوط می‌شوند، آشکار ساخت.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: چرا کدهای پایتون قابل اجرا، دقت عوامل LLM را ۲۰٪ افزایش می‌دهند

CodeAct (ICML 2024) فراخوانی ابزار مبتنی بر JSON را با کدهای پایتون قابل اجرا جایگزین می‌کند که نرخ موفقیت عوامل GPT-4 را در وظایف چند-ابزاری حدود ۲۰ درصد بهبود بخشیده و گام‌های تعاملی را ۳۰٪ کاهش می‌دهد — این موضوع پیامدهای مستقیمی برای ساخت عوامل مغایرت‌گیری قابل اعتماد در Beancount دارد.

LLMAIMachine LearningAutomationBeancountFinanceTrust

مدل‌های زبانی بزرگ هنوز نمی‌توانند استدلال خود را اصلاح کنند — یافته‌های ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی

هوانگ و همکاران (ICLR 2024) نشان می‌دهند که مدل‌های زبانی بزرگ (LLM) وقتی بدون بازخورد بیرونی ملزم به بازبینی استدلال خود می‌شوند، به طور مداوم دچار کاهش دقت می‌شوند — دقت GPT-4 در GSM8K از ۹۵.۵٪ به ۹۱.۵٪ کاهش می‌یابد — و این موضوع چه معنایی برای طراحی عوامل قابل اعتماد ثبت دفتر روزنامه Beancount دارد.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

درخت افکار: حل مسئله آگاهانه با جستجوی مدل‌های زبانی بزرگ

درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخه‌ای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست می‌یابد؛ این موضوع پیامدهای مستقیمی برای طبقه‌بندی مالی چندمرحله‌ای و بهینه‌سازی مالیاتی در جریان‌های کاری Beancount دارد.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: چرا خوداصلاحی مدل‌های زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است

سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنال‌های ابزارهای خارجی برای بازنگری در مدل‌های زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عامل‌های مالی Beancount مطابقت دارد.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: عامل‌های زبانی که بدون بازآموزی از اشتباهات خود می‌آموزند

روش Reflexion (ارائه شده در NeurIPS 2023) به عامل‌های LLM اجازه می‌دهد با ذخیره تحلیل‌های کلامی پس از شکست در یک بافر اپیزودیک، بدون نیاز به به‌روزرسانی وزن‌ها، عملکرد خود را بهبود بخشند. این روش در بنچمارک HumanEval با GPT-4 به دقت ۹۱٪ می‌رسد اما در WebShop شکست می‌خورد که نشان‌دهنده یک محدودیت ساختاری است؛ یادگیری تقویتی کلامی تنها زمانی کار می‌کند که ارزیاب سیگنالی شفاف و قابل اجرا تولید کند. در ادامه خواهیم دید که این موضوع برای ساخت یک عامل دفترکل خود-اصلاح‌گر Beancount چه معنایی دارد.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونه‌برداری شده می‌شود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش می‌دهد — و مستقیماً در محاسبات مالی چندمرحله‌ای که در آن‌ها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.

گوریلا: چگونه آموزش آگاه از بازیابی توهمات API در مدل‌های زبانی بزرگ را از ۷۸٪ به ۱۱٪ کاهش می‌دهد

Latest articles

MemGPT: مدیریت فضای متنی مجازی برای عامل‌های مدل زبانی بزرگ (LLM)

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

SWE-bench: آیا مدل‌های زبانی می‌توانند مسائل واقعی گیت‌هاب را حل کنند؟

CodeAct: چرا کدهای پایتون قابل اجرا، دقت عوامل LLM را ۲۰٪ افزایش می‌دهند

مدل‌های زبانی بزرگ هنوز نمی‌توانند استدلال خود را اصلاح کنند — یافته‌های ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی

درخت افکار: حل مسئله آگاهانه با جستجوی مدل‌های زبانی بزرگ

CRITIC: چرا خوداصلاحی مدل‌های زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است

Reflexion: عامل‌های زبانی که بدون بازآموزی از اشتباهات خود می‌آموزند

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی