پرش به محتوای اصلی
Finance

همه چیز درباره Finance

35 مقاله
Financial research, analysis, and domain knowledge for accounting AI

برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر

پیش‌نویس ۲۰۲۶ استنفورد با یکسان‌سازی بودجه توکن‌های تفکر در پنج معماری چندعاملی نشان می‌دهد که مدل‌های زبانی بزرگ تک‌عاملی در استدلال چندگامی با سیستم‌های چندعاملی برابری کرده یا از آن‌ها پیشی می‌گیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عامل‌های هوش مصنوعی در حوزه مالی دارد.

M3MAD-Bench: آیا مباحثات چند-عاملی واقعاً در حوزه‌ها و مدالیته‌های مختلف موثر هستند؟

M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار می‌دهد و نشان می‌دهد که توهم جمعی عامل ۶۵٪ شکست‌ها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش می‌دهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست می‌دهد. این کار از طریق پیش‌آموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیت‌های دقت بازیابی، هزینه‌های زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستم‌های پرسش و پاسخ دفتر کل Beancount را پوشش می‌دهد.

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.

FLARE: تولید افزوده با بازیابی فعال

مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانه‌های اطمینان احتمال توکن، RAG استاندارد را بهبود می‌بخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تک‌بازیابی می‌رسد — اما نقص در کالیبراسیون در مدل‌های چت آموزش‌دیده با دستورالعمل، قابلیت اطمینان آن را برای عامل‌های مالی تولیدی محدود می‌کند.

MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی

مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارش‌های مالی واقعی با میانگین ۳.۸۹ جدول سلسله‌مراتبی در هر گزارش است؛ مدل‌های پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسان‌ها کسب کردند، با جریمه ۱۵ امتیازی برای پرسش‌های چند‌جدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمی‌سازی می‌کند.

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

ConvFinQA (EMNLP 2022) بنچ‌مارک FinQA را به گفتگوهای چند‌نوبتی درباره گزارش‌های سود S&P 500 گسترش می‌دهد و نشان می‌دهد که بهترین مدل تنظیم‌شده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست می‌یابد؛ این رقم در گفتگوهای ترکیبی چند‌وجهی، جایی که مدل‌ها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش می‌یابد.

TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی

TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متن‌های گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدل‌های زبانی ۷ میلیاردی تنظیم‌شده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.