سیستم ReDAct بهطور پیشفرض یک مدل کوچک را اجرا میکند و تنها زمانی به یک مدل گرانقیمت ارجاع میدهد که پرپلکسیتی در سطح توکن نشاندهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفهجویی در هزینهها میشود؛ الگویی که مستقیماً برای عاملهای دستهبندی تراکنش در Beancount قابل استفاده است.
OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأملبرانگیز که نشان میدهد عاملهای هوش مصنوعی امروزه چه کارهایی را میتوانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدودهی دقیق باشند.
بنچمارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی میکند. نتایج نشاندهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.
بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرسوجوی واقعی تحلیلگران صندوقهای پوشش ریسک در برابر پروندههای 10-K شاخص S&P 500 محک میزند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست میآورد و پرسوجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت میشوند — شواهدی بر اینکه عادیسازی پرسوجو، و نه جاسازیهای بهتر، اولین راه حل برای خط لوله های هوش مصنوعی مالی است.
مقاله TACL 2024 توسط لیو و همکاران نشان میدهد که مدلهای زبانی بزرگ در اطلاعاتی که در میان زمینههای طولانی پنهان شدهاند، تا ۲۰ امتیاز ضعیفتر عمل میکنند — یک افت عملکرد U-شکل که بر تمام مدلهای آزمایششده از جمله Claude-1.3-100K تأثیر میگذارد — با پیامدهای ملموس برای نحوه ترتیببندی قطعات بازیابی شده در خط لولههای RAG در کاربردهای مالی و حسابداری.
بنچمارک AD-LLM مدلهای GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیصدهنده بدون آموزش، تقویتکننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی میکند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست مییابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.
CausalTAD تشخیص ناهنجاری جدولی مبتنی بر مدلهای زبانی بزرگ را با مرتبسازی مجدد ستونهای جدول برای رعایت وابستگیهای علّی قبل از سریالسازی بهبود میبخشد و میانگین AUC-ROC را در معیارهای نوع مختلط نسبت به AnoLLM از ۰.۸۰۳ به ۰.۸۳۴ میرساند — که پیامدهای مستقیمی برای شناسایی ناهنجاریها در دادههای ساختاریافته دفتر کل دارد.
AnoLLM (ICLR 2025) شناسایی ناهنجاریهای جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف میکند — تنظیم دقیق روی ردیفهای نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعهدادههای تقلب با انواع ترکیبی از روشهای کلاسیک بهتر عمل میکند، اما در دادههای صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاریها در ورودیهای دفترکل Beancount دارد.
بنچمارک LLMFinLiteracy نشان میدهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنشهای Beancount کاملاً صحیح تولید میکنند؛ شکستهایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عاملهای نوشتاری قابل اعتماد اشاره میکنند.