پرش به محتوای اصلی
Automation

همه چیز درباره Automation

57 مقاله
Automation techniques and tools for financial data processing workflows

آیا عامل‌های LLM می‌توانند مدیر مالی باشند؟ شبیه‌سازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش می‌کند

پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیه‌سازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار می‌دهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آن‌ها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در می‌برد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ می‌رسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست می‌یابند. گلوگاه اصلی: مدل‌های زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشم‌پوشی می‌کنند و بر اساس وضعیت مالی منقضی عمل می‌کنند.

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

بنچ‌مارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی می‌کند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمی‌رود، و سازمان‌دهی ترکیبی، نیت پنهان و انتقال‌های دستورالعمل سه مورد از جدی‌ترین حالت‌های شکست هستند.

JSONSchemaBench: پیچیدگی شمای دنیای واقعی، تضمین‌های خروجی ساختاریافته LLM را می‌شکند

بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش می‌کند و درمی‌یابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده می‌شود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر می‌کند و هیچ چارچوبی تمام ۴۵ دسته‌بندی ویژگی JSON Schema را پوشش نمی‌دهد.

FinMCP-Bench: معیار سنجش عامل‌های LLM برای استفاده از ابزارهای مالی واقعی تحت MCP

FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی می‌شوند، ارزیابی می‌کند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشان‌دهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تک‌ابزاری به چند نوبتی است.

FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدل‌های زبانی بزرگ برای وظایف مالی

بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیه‌نویسی متخصص بر اساس ۹ معیار ارزیابی می‌کند و دریافت که مدل‌های پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) می‌رسند، اما در بهره‌وری اطلاعات — مرحله‌ای که عوامل بر روی نتایج ابزارها استدلال می‌کنند — تنها امتیاز ۳.۲۳ از ۵ را کسب می‌کنند.

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

OmniEval (EMNLP 2025) سیستم‌های RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک می‌کند. بهترین سیستم‌ها تنها به ۳۶٪ دقت عددی دست می‌یابند — مدرکی عینی مبنی بر اینکه خط لوله‌های RAG پیش از نوشتن در دفترکل‌های مالی ساختاریافته، به لایه‌های اعتبارسنجی نیاز دارند.

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزن‌های توجه مدل زبانی بزرگ کسر می‌کند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شده‌اند، بازیابی می‌کند — و این موضوع چه معنایی برای خط لوله‌های عامل‌های تخصصی مالی دارد.

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

سیستم ReDAct به‌طور پیش‌فرض یک مدل کوچک را اجرا می‌کند و تنها زمانی به یک مدل گران‌قیمت ارجاع می‌دهد که پرپلکسیتی در سطح توکن نشان‌دهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفه‌جویی در هزینه‌ها می‌شود؛ الگویی که مستقیماً برای عامل‌های دسته‌بندی تراکنش در Beancount قابل استفاده است.

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.