پرش به محتوای اصلی
Data Science

همه چیز درباره Data Science

40 مقاله
Data science methods applied to financial datasets and accounting workflows

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بک‌تست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش می‌کند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدل‌های تنظیم‌شده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیش‌بینی‌کننده عملکرد است.

M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزه‌ها و مدالیته‌های مختلف موثر هستند؟

M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار می‌دهد و نشان می‌دهد که توهم جمعی عامل ۶۵٪ شکست‌ها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش می‌دهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست می‌دهد. این کار از طریق پیش‌آموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیت‌های دقت بازیابی، هزینه‌های زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستم‌های پرسش و پاسخ دفتر کل Beancount را پوشش می‌دهد.

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آن‌ها را در رمزگشا (decoder) ادغام می‌کند و در آزمون‌های NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل می‌کند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount می‌پردازد، جایی که سنتز چندین ورودی در تراکنش‌ها یک روال معمول است.

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

تولید تقویت‌شده با بازیابی برای وظایف NLP دانش‌محور

مقاله لوئیس و همکاران در NeurIPS 2020، معماری ترکیبی RAG را معرفی کرد—یک تولیدکننده BART-large که با یک بازیاب دارای شاخص FAISS روی ۲۱ میلیون قطعه ویکی‌پدیا جفت شده است—و با دستیابی به ۴۴.۵ EM در Natural Questions، شکاف پارامتریک/غیرپارامتریک را پایه‌گذاری کرد که اکنون زیربنای اکثر سیستم‌های هوش مصنوعی عملیاتی است. این بررسی تضادهای RAG-Sequence در مقابل RAG-Token، حالت شکست «فروپاشی بازیابی» و معنای شاخص‌های قدیمی برای هوش مصنوعی مالی ساخته شده بر اساس دفترهای کل Beancount که فقط قابلیت افزودن دارند را پوشش می‌دهد.

MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی

مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارش‌های مالی واقعی با میانگین ۳.۸۹ جدول سلسله‌مراتبی در هر گزارش است؛ مدل‌های پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسان‌ها کسب کردند، با جریمه ۱۵ امتیازی برای پرسش‌های چند‌جدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمی‌سازی می‌کند.