پرش به محتوای اصلی

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

هفته گذشته مقاله SWE-bench را خواندم و با یک نتیجه‌گیری ساده بیرون آمدم: GPT-4 خام به سختی ۱.۹۶٪ از مسائل واقعی گیت‌هاب را حل می‌کند. این هفته می‌خواستم پاسخ سوال بعدی را بفهمم — واقعاً چه چیزی این عدد را تغییر می‌دهد؟ مقاله SWE-agent نوشته یانگ و همکاران (NeurIPS 2024) به این سوال پاسخ می‌دهد و پاسخ به طرز فریبنده‌ای ساده است: رابط‌های کاربری بهتر.

درباره مقاله

2026-05-01-swe-agent-agent-computer-interfaces-automated-software-engineering

SWE-agent (جان یانگ، کارلوس ای. خیمنز، الکساندر وتیگ، کیلیان لیرت، شونیو یائو، کارتیک ناراسیمهان و اوفیر پرس؛ پرینستون / استنفورد) مفهوم رابط کاربری عامل-کامپیوتر (ACI) را معرفی می‌کند — یک لایه نرم‌افزاری هدفمند که بین یک مدل زبانی بزرگ (LLM) و محیط لینوکس قرار می‌گیرد و نه برای کاربران انسانی، بلکه برای نحوه پردازش اطلاعات توسط مدل‌های زبانی طراحی شده است. ادعا این است که طراحی این رابط، و نه مدل زیربنایی، گلوگاه اصلی برای عامل‌های مهندسی نرم‌افزار خودمختار است.

این سیستم روی مسائل گیت‌هاب از SWE-bench کار می‌کند: مسئله را می‌خواند، در مخزن جستجو می‌کند، کد مربوطه را پیدا می‌کند، آن را ویرایش می‌کند و تست‌ها را برای تایید اصلاحیه اجرا می‌کند. دستاورد جدید، یک مدل یا فرآیند آموزشی جدید نیست، بلکه مجموعه‌ای از دستورات اولیه (primitives) و قالب‌های بازخورد است که به دقت طراحی شده‌اند تا جایگزین شل (shell) پیش‌فرض لینوکس شوند.

ایده‌های کلیدی

  • رابط کاربری با ۱۰.۷ واحد درصد عملکرد بهتری نسبت به شل خام دارد. در یک مطالعه روی ۳۰۰ مورد از SWE-bench Lite، سیستم SWE-agent ۱۰.۷ واحد درصد بیشتر از عاملی که دقیقاً مشابه بود اما در یک شل لینوکس خام قرار داشت، مسائل را حل کرد. این بزرگترین اهرم موفقیت در کل مقاله است.
  • نمایشگر فایل با پنجره‌های ۱۰۰ خطی. به جای استفاده از دستور cat برای کل فایل، ACI در هر مرحله حدود ۱۰۰ خط را با دستورات اسکرول (scroll) نشان می‌دهد. بافت (context) بسیار کم (۳۰ خط) باعث افت ۳.۷ واحد درصدی می‌شود و بافت بسیار زیاد (کل فایل) باعث از دست رفتن تمرکز مدل می‌گردد. نقطه بهینه بسیار محدود است.
  • یک لینتر (Linter) در چرخه ویرایش. هر دستور ویرایش، قبل از نهایی کردن تغییرات، یک بررسی‌کننده نحو (syntax checker) را اجرا می‌کند. این کار از گیر افتادن مدل در وضعیت کدهای خراب که خروج از آن‌ها تنها با زبان طبیعی دشوار است، جلوگیری می‌کند.
  • جستجوی دایرکتوری مینیمالیستی. به جای grep -r همراه با بافت اطراف (که باعث سردرگمی مدل می‌شد)، ACI تنها لیستی از نام فایل‌های مطابقت‌یافته را برمی‌گرداند. زمانی که مدل باید تصمیم بگیرد کجا را جستجو کند، "کمتر، بیشتر است".
  • نتیجه کامل بنچمارک: ۱۲.۴۷٪ در SWE-bench با GPT-4 Turbo، در مقایسه با ۳.۸٪ برای یک سیستم RAG غیرتعاملی و ۱.۹۶٪ برای خط پایه بازیابی ساده در مقاله اصلی SWE-bench. نرخ حل در HumanEvalFix به ۸۷.۷٪ رسید.
  • طراحی ACI تعمیم‌پذیر است. یک نسخه امنیت سایبری (SWE-agent EnIGMA) همین فلسفه ACI را در چالش‌های CTF به کار گرفت و با استفاده از ابزارهای عاملی تعاملی که نشست‌های شل همزمان را مدیریت می‌کردند، به نرخ ۱۳.۵٪ دست یافت — یعنی سه برابر قوی‌تر از سیستم‌های قبلی.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

بینش اصلی — که طراحی رابط کاربری برای عامل‌ها به اندازه مهندسی پرامپت اهمیت دارد — به خوبی پشتیبانی شده و من آن را واقعاً مفید می‌دانم. تحلیل اجزا صادقانه است: نویسندگان اجزا را جدا کرده و سهم هر یک را نشان می‌دهند. سود ۱۰.۷ واحد درصدی نسبت به خط پایه شل خام، نتیجه‌ای شفاف است که نمی‌توان آن را با تفاوت در مدل‌ها توضیح داد.

چیزی که کمتر مرا متقاعد می‌کند: خودِ بنچمارک است. مجموعه تست SWE-bench شامل مسائلی است که از نظر پیچیدگی، ابهام و نحوه مشخص شدن اصلاحیه نهایی، تفاوت بسیار زیادی با هم دارند. واریانس بالا در کیفیت مسائل به این معنی است که رقم ۱۲.۴۷٪ تا حدی به این بستگی دارد که کدام مسائل در مجموعه ارزیابی قرار گرفته‌اند. نویسندگان با گزارش نتایج روی SWE-bench Lite (۳۰۰ مسئله) برای تحلیل اجزا به طور ضمنی به این موضوع اشاره کرده‌اند، اما واریانس در آن زیرمجموعه نیز همچنان بالاست.

محدودیت بزرگتر، دامنه کار است: SWE-bench حل یک مسئله واحد را به صورت ایزوله اندازه‌گیری می‌کند. هیچ حافظه‌ای از جلسات قبلی در طول مسائل وجود ندارد، درکی از تاریخچه کد بیس نیست و ردیابی وابستگی‌های چند مسئله‌ای انجام نمی‌شود. بعداً SWE-Bench Pro (2025) نشان داد که حتی مدل‌های پیشرو وقتی مسائل نیاز به تغییرات هماهنگ در چندین فایل دارند، به زیر ۲۵٪ سقوط می‌کنند — با افزایش تعداد فایل‌ها، عملکرد به شدت کاهش می‌یابد. ACI در محدوده یک مسئله واحد کمک می‌کند، اما مسئله دشوار، موارد طولانی‌مدت و چند فایلی است که SWE-agent هرگز برای رسیدگی به آن‌ها طراحی نشده بود.

همچنین یک سوال درباره بازتولیدپذیری وجود دارد که مدام به آن فکر می‌کنم: انتخاب‌های طراحی رابط (پنجره ۱۰۰ خطی، خروجی جستجوی مینیمالیستی) از طریق آزمایش‌های مکرر روی داده‌های آموزشی/توسعه به دست آمده‌اند. این انتخاب‌ها بدون تلاش مشابه برای تنظیم دقیق، لزوماً به دامنه‌های جدید قابل انتقال نیستند. این یک هزینه واقعی است.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

چارچوب ACI مستقیماً با مسئله طراحی عامل Beancount مرتبط است. یک دفتر کل Beancount یک خط فرمان نیست، اما یک دست‌سازه ساختاریافته است که یک مدل باید آن را بخواند، در آن پیمایش کند و در آن بنویسد. درس‌ها قابل انتقال هستند:

  • نمایشگر دفتر کل (Ledger viewer) که ۲۰ تا ۵۰ تراکنش را در هر لحظه نشان می‌دهد — همراه با دستورات اسکرول و فیلتر — عملکرد بهتری نسبت به نمایشگری خواهد داشت که داده‌های ۱۰ سال را یک‌جا تخلیه می‌کند. سرریز شدن پنجره بافت (Context window) همان الگوی شکست است.
  • اعتبار‌سنجی نوشتن (Write validator) که تراز بودن ثبت دوطرفه و وجود حساب‌ها را قبل از ثبت نهایی بررسی می‌کند، معادل لجر برای لینتر در SWE-agent است. بدون آن، عاملی که یک ورودی از نظر نحوی اشتباه تولید می‌کند، راهی برای بازیابی ندارد.
  • جستجوی مینیمالیستی اهمیت دارد: پرس‌وجوی "تمام تراکنش‌های حساب X بین تاریخ‌های Y و Z را نشان بده" باید فهرستی فشرده و قابل اسکن برگرداند، نه یک خروجی پرحجم با اطلاعات حاشیه‌ای.

این مقاله همچنین یک معیار عملی برای آنچه که باید از نسخه‌های اولیه یک عامل ثبت‌کننده Beancount انتظار داشت، تعیین می‌کند. نرخ حل ۱۲.۴۷٪ در مسائل به خوبی تعریف شده گیت‌هاب، سقف فعلی برای یک عامل تک‌مسئله‌ای با مهندسی دقیق است. ثبت در دفتر کل ساختار وظیفه مشابهی دارد — قصد کاربر، یک فایل ساختاریافته، یک خروجی مورد نیاز و یک تاییدکننده — و من انتظار نرخ‌های مشابهی را برای وظایف شفاف دارم، با کاهش شدید عملکرد در جریان‌های کاری چند ورودی و چند حسابی.

چه چیزی را بعداً بخوانیم

  • MemGPT: به سوی مدل‌های زبانی به عنوان سیستم‌عامل [arXiv:2310.08560] — مدیریت بافت در SWE-agent واکنشی است (برش هنگام سرریز)؛ MemGPT حافظه طبقه‌بندی شده فعال را پیشنهاد می‌دهد که برای عامل‌هایی که نیاز به استدلال روی دفاتر کل چندساله Beancount دارند، ضروری به نظر می‌رسد.
  • SWE-Bench Pro: آیا عامل‌های هوش مصنوعی می‌توانند وظایف مهندسی نرم‌افزار طولانی‌مدت را حل کنند؟ [arXiv:2509.16941] — مستقیماً به نقاط ضعف SWE-agent می‌پردازد؛ داده‌های مربوط به افت عملکرد در موارد چند فایلی برای طراحی ایمنی ثبت در دفاتر کل پیچیده، خواندنی‌های ضروری هستند.
  • Gorilla: اتصال مدل‌های زبانی بزرگ با APIهای عظیم [arXiv:2305.15334] — اگر ACI درباره طراحی رابط کاربری باشد، Gorilla درباره بازیابی API است؛ ترکیب این دو تصویر کامل‌تری از نحوه انتخاب و فراخوانی قابل اعتماد ابزارها توسط عامل‌ها ارائه می‌دهد.