خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقهبندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش دادههای جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینشها را از مدلهای بینایی استخراج کنند.
بنچمارک AD-LLM مدلهای GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیصدهنده بدون آموزش، تقویتکننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی میکند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست مییابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.
CausalTAD تشخیص ناهنجاری جدولی مبتنی بر مدلهای زبانی بزرگ را با مرتبسازی مجدد ستونهای جدول برای رعایت وابستگیهای علّی قبل از سریالسازی بهبود میبخشد و میانگین AUC-ROC را در معیارهای نوع مختلط نسبت به AnoLLM از ۰.۸۰۳ به ۰.۸۳۴ میرساند — که پیامدهای مستقیمی برای شناسایی ناهنجاریها در دادههای ساختاریافته دفتر کل دارد.
AnoLLM (ICLR 2025) شناسایی ناهنجاریهای جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف میکند — تنظیم دقیق روی ردیفهای نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعهدادههای تقلب با انواع ترکیبی از روشهای کلاسیک بهتر عمل میکند، اما در دادههای صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاریها در ورودیهای دفترکل Beancount دارد.
مدل GPT-4 در بنچمارک ODDS بدون تنظیم دقیق (fine-tuning) به میانگین AUROC برابر با ۷۴.۱ دست مییابد که تقریباً با خط پایه کلاسیک ECOD در ۷۵.۵ برابری میکند؛ اما در ناهنجاریهای چندبعدی و مجموعهدادههای با واریانس بالا شکست میخورد. بررسی انتقادی تشخیص ناهنجاری LLM بدون آموزش و پیامدهای آن برای حسابرسی خودکار دفتر کل Beancount.
AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.
یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش میدهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عاملهای عملیاتی مهم است، و تیمهای مالی که با استفاده از LLMها سیستم میسازند باید به چه مواردی توجه کنند.