پرش به محتوای اصلی
Plain-Text Accounting

همه چیز درباره Plain-Text Accounting

33 مقاله
Research grounded in plain-text accounting formats and workflows

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

سیستم ReDAct به‌طور پیش‌فرض یک مدل کوچک را اجرا می‌کند و تنها زمانی به یک مدل گران‌قیمت ارجاع می‌دهد که پرپلکسیتی در سطح توکن نشان‌دهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفه‌جویی در هزینه‌ها می‌شود؛ الگویی که مستقیماً برای عامل‌های دسته‌بندی تراکنش در Beancount قابل استفاده است.

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.

امتیاز ۲.۳ درصدی مدل‌های زبانی بزرگ در تولید DSL بین‌کنت: بنچمارک LLMFinLiteracy

بنچمارک LLMFinLiteracy نشان می‌دهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنش‌های Beancount کاملاً صحیح تولید می‌کنند؛ شکست‌هایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عامل‌های نوشتاری قابل اعتماد اشاره می‌کنند.

TableMaster: استدلال تطبیقی برای درک جداول با مدل‌های زبانی بزرگ (LLMs)

TableMaster یک خط لوله مبتنی بر پرامپت است که با استفاده از GPT-4o-mini به دقت ۷۸.۱۳٪ در WikiTQ دست می‌یابد—۱۳ واحد بالاتر از Chain-of-Table—که با ترکیب استخراج جدول تمرکز، شفاهی‌سازی معنایی و سوئیچ تطبیقی بین استدلال متنی و نمادین به دست آمده است. در اینجا بررسی می‌کنیم که این معماری برای عامل‌های هوش مصنوعی بر روی دفترکل‌های مالی مانند Beancount چه معنایی دارد.

τ²-bench: اندازه‌گیری هزینه کنترل دوگانه در عامل‌های هوش مصنوعی مکالمه‌ای

τ²-bench بنچمارک عامل‌ها را به محیط‌های کنترل دوگانه گسترش می‌دهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی می‌کنند. این مطالعه نشان می‌دهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش می‌دهند، که پیامدهای مستقیمی برای عامل‌های Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.

بنچمارک GAIA: اندازه‌گیری آنچه مدل‌های هوش مصنوعی پیشرو واقعاً می‌توانند انجام دهند

بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسان‌ها ۹۲٪ است، و شکاف باقی‌مانده در سطح ۳ مستقیماً به چالش‌های هماهنگی چندمرحله‌ای در گردش‌کارهای خودکار دفترکل Beancount مربوط می‌شود.

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

WorkArena عملکرد عامل‌های وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow می‌سنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیست‌ها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشان‌دهنده وجود یک سد محکم بین پر کردن فرم‌ها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالش‌های اتوماسیون دفترکل Beancount همخوانی دارد.

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

بنچمارک τ-bench نشان می‌دهد که مدل‌های زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خرده‌فروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط می‌کنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.

Chain-of-Table: تکامل جداول در زنجیره استدلال مدل‌های زبانی بزرگ

روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدل‌های زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود می‌بخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدل‌های پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عامل‌های پرس‌وجوی دفتر کل Beancount.

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق می‌کند و در وظایف ساختاری مانند برچسب‌گذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی می‌گیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب می‌ماند — معیاری دقیق برای آنچه مدل‌های متن‌باز ۷ میلیاردی امروزه در هوش مصنوعی مالی می‌توانند و نمی‌توانند انجام دهند.