خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقهبندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش دادههای جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینشها را از مدلهای بینایی استخراج کنند.
بنچمارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی میکند. نتایج نشاندهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.
مقاله TACL 2024 توسط لیو و همکاران نشان میدهد که مدلهای زبانی بزرگ در اطلاعاتی که در میان زمینههای طولانی پنهان شدهاند، تا ۲۰ امتیاز ضعیفتر عمل میکنند — یک افت عملکرد U-شکل که بر تمام مدلهای آزمایششده از جمله Claude-1.3-100K تأثیر میگذارد — با پیامدهای ملموس برای نحوه ترتیببندی قطعات بازیابی شده در خط لولههای RAG در کاربردهای مالی و حسابداری.
بنچمارک AD-LLM مدلهای GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیصدهنده بدون آموزش، تقویتکننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی میکند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست مییابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.
بنچمارک τ-bench نشان میدهد که مدلهای زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خردهفروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط میکنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.
ConvFinQA (EMNLP 2022) بنچمارک FinQA را به گفتگوهای چندنوبتی درباره گزارشهای سود S&P 500 گسترش میدهد و نشان میدهد که بهترین مدل تنظیمشده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست مییابد؛ این رقم در گفتگوهای ترکیبی چندوجهی، جایی که مدلها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش مییابد.
FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پروندههای واقعی SEC ارزیابی میکند؛ RAG با ذخیرهساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح میدهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ میرسد — این نشان میدهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.
خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونهبرداری شده میشود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش میدهد — و مستقیماً در محاسبات مالی چندمرحلهای که در آنها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.