MemGPT روش صفحهبندی حافظه مجازی به سبک سیستمعامل را در مدلهای زبانی بزرگ (LLM) پیادهسازی میکند و با استفاده از ذخیرهسازی سهلایه — حافظه کاری، بازخوانی و آرشیوی — به عاملها قابلیت یادآوری پایدار در جلسات مختلف میدهد؛ در بنچمارکهای چت چندجلسهای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.
سیستم SWE-agent (NeurIPS 2024) رابطهای کاربری عامل-کامپیوتر (ACI) را معرفی میکند — لایههایی که به طور خاص برای تعامل بین مدلهای زبانی بزرگ (LLM) و محیطهای نرمافزاری ساخته شدهاند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان میدهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عاملهای کدنویسی خودمختار است.
SWE-bench مدلهای زبانی را بر روی ۲,۲۹۴ مسئله واقعی گیتهاب در ۱۲ مخزن پایتون با استفاده از تستهای مبتنی بر اجرا ارزیابی میکند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقعگرایانه حل کرد که بنچمارک استاندارد برای عاملهای کدنویسی را ایجاد کرد و حالتهای شکست در بازیابی و طول وصله را که مستقیماً به عاملهای بازنویسی Beancount مربوط میشوند، آشکار ساخت.
CodeAct (ICML 2024) فراخوانی ابزار مبتنی بر JSON را با کدهای پایتون قابل اجرا جایگزین میکند که نرخ موفقیت عوامل GPT-4 را در وظایف چند-ابزاری حدود ۲۰ درصد بهبود بخشیده و گامهای تعاملی را ۳۰٪ کاهش میدهد — این موضوع پیامدهای مستقیمی برای ساخت عوامل مغایرتگیری قابل اعتماد در Beancount دارد.
هوانگ و همکاران (ICLR 2024) نشان میدهند که مدلهای زبانی بزرگ (LLM) وقتی بدون بازخورد بیرونی ملزم به بازبینی استدلال خود میشوند، به طور مداوم دچار کاهش دقت میشوند — دقت GPT-4 در GSM8K از ۹۵.۵٪ به ۹۱.۵٪ کاهش مییابد — و این موضوع چه معنایی برای طراحی عوامل قابل اعتماد ثبت دفتر روزنامه Beancount دارد.
درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخهای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست مییابد؛ این موضوع پیامدهای مستقیمی برای طبقهبندی مالی چندمرحلهای و بهینهسازی مالیاتی در جریانهای کاری Beancount دارد.
سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنالهای ابزارهای خارجی برای بازنگری در مدلهای زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عاملهای مالی Beancount مطابقت دارد.
روش Reflexion (ارائه شده در NeurIPS 2023) به عاملهای LLM اجازه میدهد با ذخیره تحلیلهای کلامی پس از شکست در یک بافر اپیزودیک، بدون نیاز به بهروزرسانی وزنها، عملکرد خود را بهبود بخشند. این روش در بنچمارک HumanEval با GPT-4 به دقت ۹۱٪ میرسد اما در WebShop شکست میخورد که نشاندهنده یک محدودیت ساختاری است؛ یادگیری تقویتی کلامی تنها زمانی کار میکند که ارزیاب سیگنالی شفاف و قابل اجرا تولید کند. در ادامه خواهیم دید که این موضوع برای ساخت یک عامل دفترکل خود-اصلاحگر Beancount چه معنایی دارد.
خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونهبرداری شده میشود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش میدهد — و مستقیماً در محاسبات مالی چندمرحلهای که در آنها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.