Mike Thrift
Marketing Manager
τ²-bench: اندازهگیری هزینه کنترل دوگانه در عاملهای هوش مصنوعی مکالمهای
τ²-bench بنچمارک عاملها را به محیطهای کنترل دوگانه گسترش میدهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی میکنند. این مطالعه نشان میدهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش میدهند، که پیامدهای مستقیمی برای عاملهای Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.
WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عاملهای هوش مصنوعی در وظایف سازمانی ترکیبی
بنچمارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی میکند. در حالی که انسانها ۹۳.۹٪ این وظایف را حل میکنند، GPT-4o تنها موفق به حل ۲.۱٪ آنها میشود؛ این موضوع به دقت نشان میدهد که چرا عاملهای هوش مصنوعی فعلی در کارهای دانشمحور با اهداف ضمنی شکست میخورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.
بنچمارک GAIA: اندازهگیری آنچه مدلهای هوش مصنوعی پیشرو واقعاً میتوانند انجام دهند
بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسانها ۹۲٪ است، و شکاف باقیمانده در سطح ۳ مستقیماً به چالشهای هماهنگی چندمرحلهای در گردشکارهای خودکار دفترکل Beancount مربوط میشود.
OSWorld: موفقیت عاملهای هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسانها در ۷۲٪ آنها موفق میشوند
بنچمارک OSWorld (NeurIPS 2024) عاملهای هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مکاواس ارزیابی میکند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکستها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.
WebArena: بنچمارک ۸۱۲-تسک که آنچه را که ایجنتهای وب واقعاً میتوانند و نمیتوانند انجام دهند اندازهگیری میکند
مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل میکند، در حالی که انسانها به ۷۸.۲۴٪ میرسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظهکارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابطهای کاربری وب مالی کار میکند.
WorkArena: نحوه عملکرد عاملهای وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی
WorkArena عملکرد عاملهای وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow میسنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیستها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشاندهنده وجود یک سد محکم بین پر کردن فرمها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالشهای اتوماسیون دفترکل Beancount همخوانی دارد.
τ-bench: سنجش قابلیت اطمینان عاملهای هوش مصنوعی در دامنههای واقعی استفاده از ابزار
بنچمارک τ-bench نشان میدهد که مدلهای زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خردهفروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط میکنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.
Chain-of-Table: تکامل جداول در زنجیره استدلال مدلهای زبانی بزرگ
روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدلهای زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود میبخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدلهای پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عاملهای پرسوجوی دفتر کل Beancount.
TableLlama: آیا یک مدل متنباز ۷ میلیاردی میتواند در درک جداول با GPT-4 رقابت کند؟
TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق میکند و در وظایف ساختاری مانند برچسبگذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی میگیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب میماند — معیاری دقیق برای آنچه مدلهای متنباز ۷ میلیاردی امروزه در هوش مصنوعی مالی میتوانند و نمیتوانند انجام دهند.
TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount
مدل TAPAS (تحقیقات گوگل، ACL 2020) به سوالات جدولی با انتخاب سلولها و اعمال تجمیعهای اسکالر پاسخ میدهد - بدون تولید SQL. این پست معماری آن، افزایش ۱۲ امتیازی دقت SQA، و چرایی تناسب الگوی انتخاب سلول برای پرسوجوهای کوچک دفترکل Beancount اما شکست آن در مقیاس بزرگ را تحلیل میکند.
MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل
مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخابگر برای کاهش طرحواره، تجزیهکننده برای شکستن سوال و اصلاحکننده برای تصحیح SQL مبتنی بر اجرا — استفاده میکند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیلها نشان میدهد که عامل اصلاحکننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرسوجو در دفاتر کل Beancount دارد.
DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL
DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقهبندی پیچیدگی و تولید SQL تجزیه میکند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش میدهد — و همین استراتژی تجزیه مستقیماً بر رابطهای زبان طبیعی برای زبان پرسوجوی BQL در Beancount قابل انطباق است.