Mike Thrift

Marketing Manager

May 25, 2026·mike

GuardAgent: اعمال امنیت قطعی برای عامل‌های LLM از طریق اجرای کد

سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار می‌دهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاست‌ها و ۱۰۰ درصد نرخ تکمیل وظایف دست می‌یابد، در حالی که قواعد امنیتی تعبیه‌شده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف می‌شوند.

llm

automation

May 24, 2026·mike

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیه‌های سال ۲۰۲۵ که نشان می‌دهد تک‌عامل‌ها با بودجه مشابه با عملکرد مباحثه برابری می‌کنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکست‌های مباحثه) خطرات خاصی برای ثبت‌های دفتر کل به کمک هوش مصنوعی ایجاد می‌کند.

llm

machine-learning

May 23, 2026·mike

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

machine-learning

forecasting

May 22, 2026·mike

AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping

AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.

llm

machine-learning

May 20, 2026·mike

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

llm

machine-learning

May 19, 2026·mike

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.

llm

machine-learning

May 18, 2026·mike

FLARE: تولید افزوده با بازیابی فعال

مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانه‌های اطمینان احتمال توکن، RAG استاندارد را بهبود می‌بخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تک‌بازیابی می‌رسد — اما نقص در کالیبراسیون در مدل‌های چت آموزش‌دیده با دستورالعمل، قابلیت اطمینان آن را برای عامل‌های مالی تولیدی محدود می‌کند.

machine-learning

llm

May 17, 2026·mike

تولید تقویت‌شده با بازیابی برای وظایف NLP دانش‌محور

مقاله لوئیس و همکاران در NeurIPS 2020، معماری ترکیبی RAG را معرفی کرد—یک تولیدکننده BART-large که با یک بازیاب دارای شاخص FAISS روی ۲۱ میلیون قطعه ویکی‌پدیا جفت شده است—و با دستیابی به ۴۴.۵ EM در Natural Questions، شکاف پارامتریک/غیرپارامتریک را پایه‌گذاری کرد که اکنون زیربنای اکثر سیستم‌های هوش مصنوعی عملیاتی است. این بررسی تضادهای RAG-Sequence در مقابل RAG-Token، حالت شکست «فروپاشی بازیابی» و معنای شاخص‌های قدیمی برای هوش مصنوعی مالی ساخته شده بر اساس دفترهای کل Beancount که فقط قابلیت افزودن دارند را پوشش می‌دهد.

machine-learning

llm

May 16, 2026·mike

MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی

مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارش‌های مالی واقعی با میانگین ۳.۸۹ جدول سلسله‌مراتبی در هر گزارش است؛ مدل‌های پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسان‌ها کسب کردند، با جریمه ۱۵ امتیازی برای پرسش‌های چند‌جدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمی‌سازی می‌کند.

machine-learning

llm

May 15, 2026·mike

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

ConvFinQA (EMNLP 2022) بنچ‌مارک FinQA را به گفتگوهای چند‌نوبتی درباره گزارش‌های سود S&P 500 گسترش می‌دهد و نشان می‌دهد که بهترین مدل تنظیم‌شده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست می‌یابد؛ این رقم در گفتگوهای ترکیبی چند‌وجهی، جایی که مدل‌ها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش می‌یابد.

llm

machine-learning

May 14, 2026·mike

TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی

TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متن‌های گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدل‌های زبانی ۷ میلیاردی تنظیم‌شده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.

machine-learning

llm

نمایش 49–60 از 87 پست

قبلی5 / 8بعدی