پرش به محتوای اصلی

Bean Labs Research Log

TableMaster: استدلال تطبیقی برای درک جداول با مدل‌های زبانی بزرگ (LLMs)

TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست می‌یابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهی‌سازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی می‌کنیم که این معماری برای عامل‌های هوش مصنوعی بر روی دفترکل‌های مالی مانند Beancount چه معنایی دارد.

Latest articles

تشخیص ناهنجاری بدون آموزش (Zero-Shot) با مدل‌های زبانی بزرگ: عملکرد GPT-4 روی داده‌های جدولی

مدل GPT-4 در بنچمارک ODDS بدون تنظیم دقیق (fine-tuning) به میانگین AUROC برابر با ۷۴.۱ دست می‌یابد که تقریباً با خط پایه کلاسیک ECOD در ۷۵.۵ برابری می‌کند؛ اما در ناهنجاری‌های چندبعدی و مجموعه‌داده‌های با واریانس بالا شکست می‌خورد. بررسی انتقادی تشخیص ناهنجاری LLM بدون آموزش و پیامدهای آن برای حسابرسی خودکار دفتر کل Beancount.

DocFinQA: استدلال مالی با متن طولانی بر روی گزارش‌های کامل SEC

DocFinQA قطعات منتخب ۷۰۰ کلمه‌ای FinQA را با گزارش‌های کامل ۱۲۳,۰۰۰ کلمه‌ای SEC جایگزین می‌کند که منجر به افزایش ۱۷۵ برابری متن ورودی می‌شود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش می‌دهد. خط لوله‌های بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمی‌شوند و مدل‌های با متن طولانی جایگزین مناسبی نیستند.

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیه‌سازی شده شامل GitLab، OwnCloud و RocketChat آزمایش می‌کند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام می‌رساند، که نشان می‌دهد عامل‌های خودمختار هنوز با کاربردی شدن در جریان‌های کاری حسابداری و مالی فاصله زیادی دارند.

τ²-bench: اندازه‌گیری هزینه کنترل دوگانه در عامل‌های هوش مصنوعی مکالمه‌ای

τ²-bench بنچمارک عامل‌ها را به محیط‌های کنترل دوگانه گسترش می‌دهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی می‌کنند. این مطالعه نشان می‌دهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش می‌دهند، که پیامدهای مستقیمی برای عامل‌های Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

بنچ‌مارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی می‌کند. در حالی که انسان‌ها ۹۳.۹٪ این وظایف را حل می‌کنند، GPT-4o تنها موفق به حل ۲.۱٪ آن‌ها می‌شود؛ این موضوع به دقت نشان می‌دهد که چرا عامل‌های هوش مصنوعی فعلی در کارهای دانش‌محور با اهداف ضمنی شکست می‌خورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.

بنچمارک GAIA: اندازه‌گیری آنچه مدل‌های هوش مصنوعی پیشرو واقعاً می‌توانند انجام دهند

بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسان‌ها ۹۲٪ است، و شکاف باقی‌مانده در سطح ۳ مستقیماً به چالش‌های هماهنگی چندمرحله‌ای در گردش‌کارهای خودکار دفترکل Beancount مربوط می‌شود.

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

بنچمارک OSWorld (NeurIPS 2024) عامل‌های هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مک‌اواس ارزیابی می‌کند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکست‌ها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل می‌کند، در حالی که انسان‌ها به ۷۸.۲۴٪ می‌رسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظه‌کارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابط‌های کاربری وب مالی کار می‌کند.

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

WorkArena عملکرد عامل‌های وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow می‌سنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیست‌ها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشان‌دهنده وجود یک سد محکم بین پر کردن فرم‌ها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالش‌های اتوماسیون دفترکل Beancount همخوانی دارد.