Bean Labs Research Log

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

تشخیص ناهنجاری بدون آموزش (Zero-Shot) با مدل‌های زبانی بزرگ: عملکرد GPT-4 روی داده‌های جدولی

مدل GPT-4 در بنچمارک ODDS بدون تنظیم دقیق (fine-tuning) به میانگین AUROC برابر با ۷۴.۱ دست می‌یابد که تقریباً با خط پایه کلاسیک ECOD در ۷۵.۵ برابری می‌کند؛ اما در ناهنجاری‌های چندبعدی و مجموعه‌داده‌های با واریانس بالا شکست می‌خورد. بررسی انتقادی تشخیص ناهنجاری LLM بدون آموزش و پیامدهای آن برای حسابرسی خودکار دفتر کل Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: استدلال مالی با متن طولانی بر روی گزارش‌های کامل SEC

DocFinQA قطعات منتخب ۷۰۰ کلمه‌ای FinQA را با گزارش‌های کامل ۱۲۳,۰۰۰ کلمه‌ای SEC جایگزین می‌کند که منجر به افزایش ۱۷۵ برابری متن ورودی می‌شود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش می‌دهد. خط لوله‌های بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمی‌شوند و مدل‌های با متن طولانی جایگزین مناسبی نیستند.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیه‌سازی شده شامل GitLab، OwnCloud و RocketChat آزمایش می‌کند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام می‌رساند، که نشان می‌دهد عامل‌های خودمختار هنوز با کاربردی شدن در جریان‌های کاری حسابداری و مالی فاصله زیادی دارند.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: اندازه‌گیری هزینه کنترل دوگانه در عامل‌های هوش مصنوعی مکالمه‌ای

τ²-bench بنچمارک عامل‌ها را به محیط‌های کنترل دوگانه گسترش می‌دهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی می‌کنند. این مطالعه نشان می‌دهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش می‌دهند، که پیامدهای مستقیمی برای عامل‌های Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

بنچ‌مارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی می‌کند. در حالی که انسان‌ها ۹۳.۹٪ این وظایف را حل می‌کنند، GPT-4o تنها موفق به حل ۲.۱٪ آن‌ها می‌شود؛ این موضوع به دقت نشان می‌دهد که چرا عامل‌های هوش مصنوعی فعلی در کارهای دانش‌محور با اهداف ضمنی شکست می‌خورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

بنچمارک GAIA: اندازه‌گیری آنچه مدل‌های هوش مصنوعی پیشرو واقعاً می‌توانند انجام دهند

بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسان‌ها ۹۲٪ است، و شکاف باقی‌مانده در سطح ۳ مستقیماً به چالش‌های هماهنگی چندمرحله‌ای در گردش‌کارهای خودکار دفترکل Beancount مربوط می‌شود.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

بنچمارک OSWorld (NeurIPS 2024) عامل‌های هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مک‌اواس ارزیابی می‌کند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکست‌ها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل می‌کند، در حالی که انسان‌ها به ۷۸.۲۴٪ می‌رسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظه‌کارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابط‌های کاربری وب مالی کار می‌کند.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

WorkArena عملکرد عامل‌های وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow می‌سنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیست‌ها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشان‌دهنده وجود یک سد محکم بین پر کردن فرم‌ها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالش‌های اتوماسیون دفترکل Beancount همخوانی دارد.

TableMaster: استدلال تطبیقی برای درک جداول با مدل‌های زبانی بزرگ (LLMs)

Latest articles

تشخیص ناهنجاری بدون آموزش (Zero-Shot) با مدل‌های زبانی بزرگ: عملکرد GPT-4 روی داده‌های جدولی

DocFinQA: استدلال مالی با متن طولانی بر روی گزارش‌های کامل SEC

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

τ²-bench: اندازه‌گیری هزینه کنترل دوگانه در عامل‌های هوش مصنوعی مکالمه‌ای

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

بنچمارک GAIA: اندازه‌گیری آنچه مدل‌های هوش مصنوعی پیشرو واقعاً می‌توانند انجام دهند

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی