پرش به محتوای اصلی
Analytics

همه چیز درباره Analytics

8 مقاله
Data analytics techniques and metrics for financial AI systems

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقه‌بندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش داده‌های جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینش‌ها را از مدل‌های بینایی استخراج کنند.

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

بنچ‌مارک AD-LLM مدل‌های GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیص‌دهنده بدون آموزش، تقویت‌کننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی می‌کند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست می‌یابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

بنچمارک τ-bench نشان می‌دهد که مدل‌های زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خرده‌فروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط می‌کنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

ConvFinQA (EMNLP 2022) بنچ‌مارک FinQA را به گفتگوهای چند‌نوبتی درباره گزارش‌های سود S&P 500 گسترش می‌دهد و نشان می‌دهد که بهترین مدل تنظیم‌شده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست می‌یابد؛ این رقم در گفتگوهای ترکیبی چند‌وجهی، جایی که مدل‌ها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش می‌یابد.

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونه‌برداری شده می‌شود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش می‌دهد — و مستقیماً در محاسبات مالی چندمرحله‌ای که در آن‌ها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.