پرش به محتوای اصلی
Data Science

همه چیز درباره Data Science

40 مقاله
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی

FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیه‌نویسی شده توسط انسان را پوشش می‌دهد. مدل‌های برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست می‌یابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل می‌کند.

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

بنچ‌مارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی می‌کند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمی‌رود، و سازمان‌دهی ترکیبی، نیت پنهان و انتقال‌های دستورالعمل سه مورد از جدی‌ترین حالت‌های شکست هستند.

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

یک بررسی سیستماتیک از روش‌های تخمین اعتماد و کالیبراسیون در مدل‌های زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان می‌دهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست می‌یابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عامل‌های آگاه به عدم قطعیت در امور مالی و حسابداری دارد.

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

OmniEval (EMNLP 2025) سیستم‌های RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک می‌کند. بهترین سیستم‌ها تنها به ۳۶٪ دقت عددی دست می‌یابند — مدرکی عینی مبنی بر اینکه خط لوله‌های RAG پیش از نوشتن در دفترکل‌های مالی ساختاریافته، به لایه‌های اعتبارسنجی نیاز دارند.

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقه‌بندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش داده‌های جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینش‌ها را از مدل‌های بینایی استخراج کنند.

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزن‌های توجه مدل زبانی بزرگ کسر می‌کند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شده‌اند، بازیابی می‌کند — و این موضوع چه معنایی برای خط لوله‌های عامل‌های تخصصی مالی دارد.

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرس‌وجوی واقعی تحلیل‌گران صندوق‌های پوشش ریسک در برابر پرونده‌های 10-K شاخص S&P 500 محک می‌زند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست می‌آورد و پرس‌وجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت می‌شوند — شواهدی بر اینکه عادی‌سازی پرس‌وجو، و نه جاسازی‌های بهتر، اولین راه حل برای خط لوله‌های هوش مصنوعی مالی است.

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.