Mike Thrift
Marketing Manager
GuardAgent: اعمال امنیت قطعی برای عاملهای LLM از طریق اجرای کد
سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار میدهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاستها و ۱۰۰ درصد نرخ تکمیل وظایف دست مییابد، در حالی که قواعد امنیتی تعبیهشده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف میشوند.
مباحثه چندعاملی مدلهای زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترلنشده و توهم جمعی
بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیههای سال ۲۰۲۵ که نشان میدهد تکعاملها با بودجه مشابه با عملکرد مباحثه برابری میکنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکستهای مباحثه) خطرات خاصی برای ثبتهای دفتر کل به کمک هوش مصنوعی ایجاد میکند.
مدلهای زبانی بزرگ برای پیشبینی سریهای زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی
یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیشبینی سریهای زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود میبخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش میدهد. برای کاربردهای هوش مصنوعی مالی مانند پیشبینی موجودی Beancount، مدلهای سبک و تخصصی همواره مدلهای تغییر کاربری یافته LLM را شکست میدهند.
AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping
AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.
TAT-LLM: مدل LLaMA 2 تنظیمدقیقشده برای استدلال گسسته روی جداول و متون مالی
مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچمارکهای پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.
تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدلهای زبانی بزرگ پیروز میشود
مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدلهای زبانی ۷ میلیارد پارامتری نشان میدهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست مییابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف میشود — با پیامدهای مستقیم برای طراحی عاملهای Beancount و هر سیستمی که به بهروزرسانیهای مکرر دانش نیاز دارد.
IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحلهای
روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق میکند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تکمرحلهای دست مییابد؛ این روش نشان میدهد که با استراتژی بازیابی صحیح، یک مدل 3B میتواند بر GPT-3 175B غلبه کند.
FLARE: تولید افزوده با بازیابی فعال
مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانههای اطمینان احتمال توکن، RAG استاندارد را بهبود میبخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تکبازیابی میرسد — اما نقص در کالیبراسیون در مدلهای چت آموزشدیده با دستورالعمل، قابلیت اطمینان آن را برای عاملهای مالی تولیدی محدود میکند.
تولید تقویتشده با بازیابی برای وظایف NLP دانشمحور
مقاله لوئیس و همکاران در NeurIPS 2020، معماری ترکیبی RAG را معرفی کرد—یک تولیدکننده BART-large که با یک بازیاب دارای شاخص FAISS روی ۲۱ میلیون قطعه ویکیپدیا جفت شده است—و با دستیابی به ۴۴.۵ EM در Natural Questions، شکاف پارامتریک/غیرپارامتریک را پایهگذاری کرد که اکنون زیربنای اکثر سیستمهای هوش مصنوعی عملیاتی است. این بررسی تضادهای RAG-Sequence در مقابل RAG-Token، حالت شکست «فروپاشی بازیابی» و معنای شاخصهای قدیمی برای هوش مصنوعی مالی ساخته شده بر اساس دفترهای کل Beancount که فقط قابلیت افزودن دارند را پوشش میدهد.
MultiHiertt: بنچمارک استدلال عددی بر روی جداول مالی چندسلسلهمراتبی
مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارشهای مالی واقعی با میانگین ۳.۸۹ جدول سلسلهمراتبی در هر گزارش است؛ مدلهای پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسانها کسب کردند، با جریمه ۱۵ امتیازی برای پرسشهای چندجدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمیسازی میکند.
ConvFinQA: پرسش و پاسخ مالی چندنوبتی و شکاف ۲۱ امتیازی بین مدلها و متخصصان انسانی
ConvFinQA (EMNLP 2022) بنچمارک FinQA را به گفتگوهای چندنوبتی درباره گزارشهای سود S&P 500 گسترش میدهد و نشان میدهد که بهترین مدل تنظیمشده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست مییابد؛ این رقم در گفتگوهای ترکیبی چندوجهی، جایی که مدلها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش مییابد.
TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارشهای سالانه مالی
TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متنهای گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدلهای زبانی ۷ میلیاردی تنظیمشده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.