سیستم ReDAct بهطور پیشفرض یک مدل کوچک را اجرا میکند و تنها زمانی به یک مدل گرانقیمت ارجاع میدهد که پرپلکسیتی در سطح توکن نشاندهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفهجویی در هزینهها میشود؛ الگویی که مستقیماً برای عاملهای دستهبندی تراکنش در Beancount قابل استفاده است.
OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأملبرانگیز که نشان میدهد عاملهای هوش مصنوعی امروزه چه کارهایی را میتوانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدودهی دقیق باشند.
بنچمارک LLMFinLiteracy نشان میدهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنشهای Beancount کاملاً صحیح تولید میکنند؛ شکستهایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عاملهای نوشتاری قابل اعتماد اشاره میکنند.
TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست مییابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهیسازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی میکنیم که این معماری برای عاملهای هوش مصنوعی بر روی دفترکلهای مالی مانند Beancount چه معنایی دارد.
τ²-bench بنچمارک عاملها را به محیطهای کنترل دوگانه گسترش میدهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی میکنند. این مطالعه نشان میدهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش میدهند، که پیامدهای مستقیمی برای عاملهای Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.
بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسانها ۹۲٪ است، و شکاف باقیمانده در سطح ۳ مستقیماً به چالشهای هماهنگی چندمرحلهای در گردشکارهای خودکار دفترکل Beancount مربوط میشود.
WorkArena عملکرد عاملهای وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow میسنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیستها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشاندهنده وجود یک سد محکم بین پر کردن فرمها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالشهای اتوماسیون دفترکل Beancount همخوانی دارد.
بنچمارک τ-bench نشان میدهد که مدلهای زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خردهفروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط میکنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.
روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدلهای زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود میبخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدلهای پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عاملهای پرسوجوی دفتر کل Beancount.
TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق میکند و در وظایف ساختاری مانند برچسبگذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی میگیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب میماند — معیاری دقیق برای آنچه مدلهای متنباز ۷ میلیاردی امروزه در هوش مصنوعی مالی میتوانند و نمیتوانند انجام دهند.