پرش به محتوای اصلی
Open Source

همه چیز درباره Open Source

4 مقاله
Open-source tools, frameworks, and research artifacts for financial AI

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل می‌کند، در حالی که انسان‌ها به ۷۸.۲۴٪ می‌رسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظه‌کارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابط‌های کاربری وب مالی کار می‌کند.

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق می‌کند و در وظایف ساختاری مانند برچسب‌گذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی می‌گیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب می‌ماند — معیاری دقیق برای آنچه مدل‌های متن‌باز ۷ میلیاردی امروزه در هوش مصنوعی مالی می‌توانند و نمی‌توانند انجام دهند.

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

سیستم SWE-agent (NeurIPS 2024) رابط‌های کاربری عامل-کامپیوتر (ACI) را معرفی می‌کند — لایه‌هایی که به طور خاص برای تعامل بین مدل‌های زبانی بزرگ (LLM) و محیط‌های نرم‌افزاری ساخته شده‌اند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان می‌دهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عامل‌های کدنویسی خودمختار است.