پرش به محتوای اصلی
Developers

همه چیز درباره Developers

7 مقاله
Developer resources, APIs, and integration documentation for finance tools

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریل‌های مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکه‌های منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستم‌های هوش مصنوعی مالی.

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

گوریلا: چگونه آموزش آگاه از بازیابی توهمات API در مدل‌های زبانی بزرگ را از ۷۸٪ به ۱۱٪ کاهش می‌دهد

گوریلا (Patil et al., NeurIPS 2024) یک مدل LLaMA 7B را با آموزش آگاه از بازیابی (RAT) بر روی مستندات API بازیابی شده تنظیم دقیق می‌کند و نرخ توهم را در مقایسه با GPT-4 از ۷۸٪ به ۱۱٪ کاهش می‌دهد. این موضوع پیامدهای مستقیمی برای عوامل هوش مصنوعی مالی دارد که در آن‌ها نام‌های حساب اشتباه یا علامت‌های معکوس، به جای مزاحمت، خطاهای جدی در صحت داده‌ها محسوب می‌شوند.

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

سیستم SWE-agent (NeurIPS 2024) رابط‌های کاربری عامل-کامپیوتر (ACI) را معرفی می‌کند — لایه‌هایی که به طور خاص برای تعامل بین مدل‌های زبانی بزرگ (LLM) و محیط‌های نرم‌افزاری ساخته شده‌اند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان می‌دهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عامل‌های کدنویسی خودمختار است.

SWE-bench: آیا مدل‌های زبانی می‌توانند مسائل واقعی گیت‌هاب را حل کنند؟

SWE-bench مدل‌های زبانی را بر روی ۲,۲۹۴ مسئله واقعی گیت‌هاب در ۱۲ مخزن پایتون با استفاده از تست‌های مبتنی بر اجرا ارزیابی می‌کند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقع‌گرایانه حل کرد که بنچمارک استاندارد برای عامل‌های کدنویسی را ایجاد کرد و حالت‌های شکست در بازیابی و طول وصله را که مستقیماً به عامل‌های بازنویسی Beancount مربوط می‌شوند، آشکار ساخت.

Toolformer: استفاده از ابزار بصورت خود-نظارتی و محدودیت‌های آن برای هوش مصنوعی مالی

بررسی دقیق Toolformer (Meta AI, NeurIPS 2023): چگونه آموزش خود-نظارتی فیلتر شده با پرپلکسیتی به یک مدل ۶.۷ میلیارد پارامتری یاد می‌دهد تا APIهای خارجی را فراخوانی کند، جایی که در بنچمارک‌های محاسباتی از GPT-3 175B پیشی می‌گیرد، و چرا معماری تک‌مرحله‌ای آن نمی‌تواند از فراخوانی‌های زنجیره‌ای ابزار مورد نیاز برای عملیات دفترداری ساختاریافته پشتیبانی کند.