مدل GPT-4 در بنچمارک ODDS بدون تنظیم دقیق (fine-tuning) به میانگین AUROC برابر با ۷۴.۱ دست مییابد که تقریباً با خط پایه کلاسیک ECOD در ۷۵.۵ برابری میکند؛ اما در ناهنجاریهای چندبعدی و مجموعهدادههای با واریانس بالا شکست میخورد. بررسی انتقادی تشخیص ناهنجاری LLM بدون آموزش و پیامدهای آن برای حسابرسی خودکار دفتر کل Beancount.
DocFinQA قطعات منتخب ۷۰۰ کلمهای FinQA را با گزارشهای کامل ۱۲۳,۰۰۰ کلمهای SEC جایگزین میکند که منجر به افزایش ۱۷۵ برابری متن ورودی میشود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش میدهد. خط لولههای بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمیشوند و مدلهای با متن طولانی جایگزین مناسبی نیستند.
پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیهسازی شده شامل GitLab، OwnCloud و RocketChat آزمایش میکند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام میرساند، که نشان میدهد عاملهای خودمختار هنوز با کاربردی شدن در جریانهای کاری حسابداری و مالی فاصله زیادی دارند.
τ²-bench بنچمارک عاملها را به محیطهای کنترل دوگانه گسترش میدهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی میکنند. این مطالعه نشان میدهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش میدهند، که پیامدهای مستقیمی برای عاملهای Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.
بنچمارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی میکند. در حالی که انسانها ۹۳.۹٪ این وظایف را حل میکنند، GPT-4o تنها موفق به حل ۲.۱٪ آنها میشود؛ این موضوع به دقت نشان میدهد که چرا عاملهای هوش مصنوعی فعلی در کارهای دانشمحور با اهداف ضمنی شکست میخورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.
بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسانها ۹۲٪ است، و شکاف باقیمانده در سطح ۳ مستقیماً به چالشهای هماهنگی چندمرحلهای در گردشکارهای خودکار دفترکل Beancount مربوط میشود.
بنچمارک OSWorld (NeurIPS 2024) عاملهای هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مکاواس ارزیابی میکند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکستها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.
مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل میکند، در حالی که انسانها به ۷۸.۲۴٪ میرسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظهکارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابطهای کاربری وب مالی کار میکند.
WorkArena عملکرد عاملهای وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow میسنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیستها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشاندهنده وجود یک سد محکم بین پر کردن فرمها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالشهای اتوماسیون دفترکل Beancount همخوانی دارد.