40 پست با برچسب "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی

FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیه‌نویسی شده توسط انسان را پوشش می‌دهد. مدل‌های برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست می‌یابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل می‌کند.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

بنچ‌مارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی می‌کند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمی‌رود، و سازمان‌دهی ترکیبی، نیت پنهان و انتقال‌های دستورالعمل سه مورد از جدی‌ترین حالت‌های شکست هستند.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

یک بررسی سیستماتیک از روش‌های تخمین اعتماد و کالیبراسیون در مدل‌های زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان می‌دهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست می‌یابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عامل‌های آگاه به عدم قطعیت در امور مالی و حسابداری دارد.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

OmniEval (EMNLP 2025) سیستم‌های RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک می‌کند. بهترین سیستم‌ها تنها به ۳۶٪ دقت عددی دست می‌یابند — مدرکی عینی مبنی بر اینکه خط لوله‌های RAG پیش از نوشتن در دفترکل‌های مالی ساختاریافته، به لایه‌های اعتبارسنجی نیاز دارند.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقه‌بندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش داده‌های جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینش‌ها را از مدل‌های بینایی استخراج کنند.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزن‌های توجه مدل زبانی بزرگ کسر می‌کند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شده‌اند، بازیابی می‌کند — و این موضوع چه معنایی برای خط لوله‌های عامل‌های تخصصی مالی دارد.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرس‌وجوی واقعی تحلیل‌گران صندوق‌های پوشش ریسک در برابر پرونده‌های 10-K شاخص S&P 500 محک می‌زند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست می‌آورد و پرس‌وجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت می‌شوند — شواهدی بر اینکه عادی‌سازی پرس‌وجو، و نه جاسازی‌های بهتر، اولین راه حل برای خط لوله‌های هوش مصنوعی مالی است.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

همه چیز درباره Data Science

FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی