AD-LLMベンチマーク:GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成
AD-LLMは、5つのNLPデータセットにおいて、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーの3つの異常検知ロールにわたり、GPT-4oとLlama 3.1 8Bをベンチマークしました。GPT-4oはゼロショットでAUROC 0.93~0.99に達しましたが、LLMベースのモデル選択には依然として信頼性がなく、財務監査AIに直接的な影響を及ぼします。
AD-LLMは、5つのNLPデータセットにおいて、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーの3つの異常検知ロールにわたり、GPT-4oとLlama 3.1 8Bをベンチマークしました。GPT-4oはゼロショットでAUROC 0.93~0.99に達しましたが、LLMベースのモデル選択には依然として信頼性がなく、財務監査AIに直接的な影響を及ぼします。
CausalTADは、シリアライズ前に因果関係に従ってテーブルの列を並べ替えることで、LLMベースのテーブルデータ異常検知を改善します。混合型ベンチマークにおいて平均AUC-ROCをAnoLLMの0.803から0.834へと向上させ、構造化された元帳データの異常検知に直接的な影響を与えます。