Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.
AD-LLM сравнява GPT-4o и Llama 3.1 8B в три роли за откриване на аномалии – zero-shot детектор, генератор на данни и съветник за избор на модел – върху пет NLP набора от данни; GPT-4o достига AUROC 0.93–0.99 при zero-shot, но изборът на модел, базиран на LLM, остава ненадежден, с преки последици за ИИ във финансовия одит.
CausalTAD подобрява откриването на аномалии в таблични данни чрез LLM, като пренарежда колоните на таблицата според каузалните зависимости преди сериализация, повишавайки средния AUC-ROC от 0.803 на 0.834 спрямо AnoLLM при бенчмаркове със смесен тип данни — с преки последици за откриването на аномалии в структурирани данни от счетоводни книги.
AnoLLM (ICLR 2025) преформулира откриването на таблични аномалии като оценка на плътността чрез LLM — фина настройка върху нормални редове и оценяване чрез отрицателна логаритмична вероятност (NLL). Той превъзхожда класическите методи при набори от данни за измами от смесен тип, но не предлага предимство при чисто числови данни, с реални последици за откриването на аномалии в записите на главната книга на Beancount.
GPT-4 постига 74,1 среден AUROC в бенчмарка ODDS без фина настройка — почти съвпадайки с класическия ECOD бейзлайн от 75,5 — но се проваля при многоизмерни аномалии и масиви от данни с висока вариативност; критичен преглед на zero-shot откриването на аномалии с LLM и неговото значение за автоматизирания одит на Beancount регистри.
AuditCopilot прилага LLM с отворен код (Mistral-8B, Gemma, Llama-3.1) за откриване на измами в корпоративни счетоводни записи, намалявайки фалшиво положителните резултати от 942 на 12 — но аблационният анализ разкрива, че LLM функционира основно като слой за синтез върху резултатите от Isolation Forest, а не като независим детектор на аномалии.
Подробен прочит на документа за Верига от мисли (Chain-of-Thought) на Wei и др. от 2022 г. и какво означава той за ИИ във финансите — защо CoT повишава точността, но може да намали пълнотата при откриване на редки събития, защо прагът на мащаба е важен за производствените агенти и за какво трябва да внимава финансов екип, изграждащ решения върху LLM.