7 پست با برچسب "Compliance"

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

AILLMSecurityAutomationBeancountComplianceTrust

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارش‌های SEC XBRL آزمایش می‌کند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص می‌کند.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف

AGrail (ACL 2025) یک سیستم نرده حفاظتی مشارکتی دو-LLM را معرفی می‌کند که بررسی‌های امنیتی را در زمان استنتاج از طریق تطبیق در زمان تست (TTA) تنظیم می‌کند. این سیستم به نرخ موفقیت ۰٪ در حملات تزریق دستور و حفظ ۹۵.۶٪ اقدامات مجاز در Safe-OS دست یافته است — در حالی که GuardAgent و LLaMA-Guard تا ۴۹.۲٪ از اقدامات قانونی را مسدود می‌کنند.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

سیستم ShieldAgent (ICML 2025) با جایگزینی گاردریل‌های مبتنی بر LLM با مدارهای قانون احتمالی ساخته شده بر روی شبکه‌های منطق مارکوف، به دقت ۹۰.۴٪ در برابر حملات عاملی با ۶۴.۷٪ فراخوانی API کمتر دست یافته است — و بررسی معنای آن برای امنیت قابل تایید در سیستم‌های هوش مصنوعی مالی.

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping

AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

هوش مصنوعی قانون‌مند برای عوامل حسابداری: RLAIF، قوانین خط‌مشی و ریسک‌های گودهارت

مقاله هوش مصنوعی قانون‌مند آنتروپیک (بای و همکاران، ۲۰۲۲) مدل‌های زبانی بزرگ را آموزش می‌دهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسب‌های آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی می‌کند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق می‌شود — و زمانی که «قانون اساسی» به جای مجموعه‌ای از قوانین اخلاقی، یک چارت حساب‌ها باشد، گودهارتینگ، شکست‌های کالیبراسیون و ریسک‌های استفاده دوگانه چگونه به نظر می‌رسند.

همه چیز درباره Compliance

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

AGrail: نرده‌های حفاظتی امنیتی تطبیقی برای عامل‌های مدل زبانی بزرگ (LLM) با قابلیت یادگیری در طول وظایف

ShieldAgent: استدلال سیاست امنیتی قابل تایید برای عامل‌های LLM

AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping

هوش مصنوعی قانون‌مند برای عوامل حسابداری: RLAIF، قوانین خط‌مشی و ریسک‌های گودهارت

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی