3 پست با برچسب "Enterprise Software"

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیه‌سازی شده شامل GitLab، OwnCloud و RocketChat آزمایش می‌کند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام می‌رساند، که نشان می‌دهد عامل‌های خودمختار هنوز با کاربردی شدن در جریان‌های کاری حسابداری و مالی فاصله زیادی دارند.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

بنچ‌مارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی می‌کند. در حالی که انسان‌ها ۹۳.۹٪ این وظایف را حل می‌کنند، GPT-4o تنها موفق به حل ۲.۱٪ آن‌ها می‌شود؛ این موضوع به دقت نشان می‌دهد که چرا عامل‌های هوش مصنوعی فعلی در کارهای دانش‌محور با اهداف ضمنی شکست می‌خورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

WorkArena عملکرد عامل‌های وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow می‌سنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیست‌ها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشان‌دهنده وجود یک سد محکم بین پر کردن فرم‌ها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالش‌های اتوماسیون دفترکل Beancount همخوانی دارد.

همه چیز درباره Enterprise Software

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی