پیشنویس ۲۰۲۶ استنفورد با یکسانسازی بودجه توکنهای تفکر در پنج معماری چندعاملی نشان میدهد که مدلهای زبانی بزرگ تکعاملی در استدلال چندگامی با سیستمهای چندعاملی برابری کرده یا از آنها پیشی میگیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عاملهای هوش مصنوعی در حوزه مالی دارد.
M3MAD-Bench مباحثه چند-عاملی را در ۹ مدل، ۵ حوزه و تنظیمات بینایی-زبانی مورد آزمایش فشار قرار میدهد و نشان میدهد که توهم جمعی عامل ۶۵٪ شکستها است، مباحثه خصمانه دقت را تا ۱۲.۸٪ کاهش میدهد و خود-سازگاری معمولاً با هزینه توکن کمتر، دقتی مشابه مباحثه دارد.
اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست مییابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست میدهد. این کار از طریق پیشآموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیتهای دقت بازیابی، هزینههای زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستمهای پرسش و پاسخ دفتر کل Beancount را پوشش میدهد.
یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیشبینی سریهای زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود میبخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش میدهد. برای کاربردهای هوش مصنوعی مالی مانند پیشبینی موجودی Beancount، مدلهای سبک و تخصصی همواره مدلهای تغییر کاربری یافته LLM را شکست میدهند.
مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچمارکهای پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.
روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق میکند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تکمرحلهای دست مییابد؛ این روش نشان میدهد که با استراتژی بازیابی صحیح، یک مدل 3B میتواند بر GPT-3 175B غلبه کند.
مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانههای اطمینان احتمال توکن، RAG استاندارد را بهبود میبخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تکبازیابی میرسد — اما نقص در کالیبراسیون در مدلهای چت آموزشدیده با دستورالعمل، قابلیت اطمینان آن را برای عاملهای مالی تولیدی محدود میکند.
مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارشهای مالی واقعی با میانگین ۳.۸۹ جدول سلسلهمراتبی در هر گزارش است؛ مدلهای پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسانها کسب کردند، با جریمه ۱۵ امتیازی برای پرسشهای چندجدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمیسازی میکند.
ConvFinQA (EMNLP 2022) بنچمارک FinQA را به گفتگوهای چندنوبتی درباره گزارشهای سود S&P 500 گسترش میدهد و نشان میدهد که بهترین مدل تنظیمشده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست مییابد؛ این رقم در گفتگوهای ترکیبی چندوجهی، جایی که مدلها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش مییابد.
TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متنهای گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدلهای زبانی ۷ میلیاردی تنظیمشده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.