AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.
مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچمارکهای پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.
مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدلهای زبانی ۷ میلیارد پارامتری نشان میدهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست مییابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف میشود — با پیامدهای مستقیم برای طراحی عاملهای Beancount و هر سیستمی که به بهروزرسانیهای مکرر دانش نیاز دارد.
روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق میکند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تکمرحلهای دست مییابد؛ این روش نشان میدهد که با استراتژی بازیابی صحیح، یک مدل 3B میتواند بر GPT-3 175B غلبه کند.
مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانههای اطمینان احتمال توکن، RAG استاندارد را بهبود میبخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تکبازیابی میرسد — اما نقص در کالیبراسیون در مدلهای چت آموزشدیده با دستورالعمل، قابلیت اطمینان آن را برای عاملهای مالی تولیدی محدود میکند.
مقاله لوئیس و همکاران در NeurIPS 2020، معماری ترکیبی RAG را معرفی کرد—یک تولیدکننده BART-large که با یک بازیاب دارای شاخص FAISS روی ۲۱ میلیون قطعه ویکیپدیا جفت شده است—و با دستیابی به ۴۴.۵ EM در Natural Questions، شکاف پارامتریک/غیرپارامتریک را پایهگذاری کرد که اکنون زیربنای اکثر سیستمهای هوش مصنوعی عملیاتی است. این بررسی تضادهای RAG-Sequence در مقابل RAG-Token، حالت شکست «فروپاشی بازیابی» و معنای شاخصهای قدیمی برای هوش مصنوعی مالی ساخته شده بر اساس دفترهای کل Beancount که فقط قابلیت افزودن دارند را پوشش میدهد.
مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارشهای مالی واقعی با میانگین ۳.۸۹ جدول سلسلهمراتبی در هر گزارش است؛ مدلهای پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسانها کسب کردند، با جریمه ۱۵ امتیازی برای پرسشهای چندجدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمیسازی میکند.
ConvFinQA (EMNLP 2022) بنچمارک FinQA را به گفتگوهای چندنوبتی درباره گزارشهای سود S&P 500 گسترش میدهد و نشان میدهد که بهترین مدل تنظیمشده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست مییابد؛ این رقم در گفتگوهای ترکیبی چندوجهی، جایی که مدلها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش مییابد.
TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متنهای گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدلهای زبانی ۷ میلیاردی تنظیمشده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.