Преминете към основното съдържание

Откриване на аномалии без обучение (Zero-Shot) с LLM: Как се справя GPT-4 с таблични данни

· 8 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Документът за AuditCopilot, който четох миналия месец, сравняваше LLM при откриване на измами в счетоводни записи чрез фина настройка върху етикетирани данни за аномалии. Оттогава ми е любопитно дали zero-shot подсказването може да свърши по-голямата част от работата — без да са необходими етикетирани аномалии и без специфична за домейна фина настройка. Точно това е обещанието на „Anomaly Detection of Tabular Data Using LLMs“ от Li, Zhao, Qiu, Kloft, Smyth, Rudolph и Mandt (arXiv:2406.16308), работен документ от средата на 2024 г. Основният резултат — GPT-4, съвпадащ с класически трандуктивни методи като ECOD — звучеше почти твърде добре, затова го прочетох внимателно.

Документът

2026-06-21-anomaly-detection-tabular-data-llms%20%D1%81%20LLM%3A%20%D0%9A%D0%B0%D0%BA%20%D1%81%D0%B5%20%D1%81%D0%BF%D1%80%D0%B0%D0%B2%D1%8F%20GPT-4%20%D1%81%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%87%D0%BD%D0%B8%20%D0%B4%D0%B0%D0%BD%D0%BD%D0%B8)

Основната идея е това, което авторите наричат откриване на аномалии „на ниво партида“ (batch-level). Вместо да обучавате модел върху тренировъчни данни и след това да оценявате тестовите точки поотделно, вие представяте на LLM партида от N реда по време на извода (inference) и го молите да идентифицира кои редове са аномални спрямо останалите в същата партида. Аномалиите са редки във всяка партида, така че един достатъчно способен модел би трябвало имплицитно да разпознае мажоритарния модел и да маркира отклоненията. Без преобучение, без етикетирани примери — само предварително обучените познания за света на LLM и разсъжденията в контекста.

Те извършват оценка върху бенчмарка ODDS с 32 набора от данни, стандартна колекция от реални проблеми за откриване на аномалии в таблични данни. Поради ограниченията на контекстния прозорец, те ограничават всяка партида за оценка до 150 реда и 10 колони. Характеристиките се сериализират по едно измерение наведнъж с шаблона „Data i is x_i.“, а LLM бива подканен да посочи аномалните индекси за всяко измерение поотделно; окончателната оценка за аномалия на даден ред обобщава в колко измерения е бил маркиран той.

За проприетарни модели те тестват zero-shot. За модели с отворен код (Llama2-7B, Llama2-70B, Mistral-7B), zero-shot представянето е слабо, затова те предлагат и фина настройка върху синтетичен масив от данни от 5000 партиди, генерирани от Гаусови смеси и категориални разпределения — не са необходими реални етикети за аномалии. Фино настроените варианти се наричат Llama2-AD и Mistral-AD.

Ключови идеи

  • GPT-4 zero-shot постига 74,1 среден AUROC в 32 ODDS набора от данни, в сравнение със 75,5 на ECOD (най-добрият класически бейзлайн) и 70,7 на KNN. GPT-3.5 изостава с 68,3.
  • Llama2-7B zero-shot постига само 51,1 — по същество произволен резултат — но фината настройка върху синтетични данни го довежда до 60,0, печалба от +8,9 точки. Mistral-7B се подобрява от 62,4 до 69,1 (+6,7 точки).
  • Рамкирането „на ниво партида“ е интересният концептуален ход: LLM действа като имплицитен оценител на плътността върху партидата, а не като дискриминатор, обучен да разделя класове.
  • Фината настройка използва LoRA само върху синтетични Гаусови и категориални данни — не са необходими реални анотации на аномалии. Това е съществено практическо предимство, ако се обобщава добре.
  • Парсването на изхода е нестабилно за моделите с отворен код; авторите налагат граматически ограничения и използват regex шаблони за извличане на индексите на аномалиите.

Какво издържа проверката — и какво не

Обхватът на бенчмарка е най-големият проблем. Документът прави сравнение само с два класически бейзлайна: KNN и ECOD. Isolation Forest, LOF, One-Class SVM и всеки метод за откриване на аномалии с дълбоко обучение напълно отсъстват. ECOD се оказва силен бейзлайн за ODDS — но GPT-4 не го побеждава категорично (74,1 срещу 75,5), нито пък Mistral-AD (69,1). Срещу по-широк набор от бейзлайни не е сигурно, че GPT-4 би запазил позицията си.

Ограничението от 150 реда / 10 колони също е сериозна бариера, която документът не разглежда адекватно. Реалните счетоводни регистри имат хиляди транзакции и много повече характеристики. Дали подходът на ниво партида се мащабира — или се влошава, защото аномалиите стават по-трудни за разграничаване в по-големи партиди с по-разнообразни модели — не е тествано.

Цифрите за вариативността са тревожни. GPT-3.5 върху масива breastw постига 63,1 ± 34,4 AUROC. Това не е метод, който можете да внедрите, когато едно изпълнение може да даде резултат навсякъде от 30 до 98. GPT-4 е по-стабилен (98,7 ± 0,5 за breastw), но показва подобна вариативност в други масиви от данни.

Предположението за независимост на характеристиките е друга празнина. LLM прави заявки за всяко измерение на характеристиките поотделно и обобщава резултатите. Той не може да разсъждава за съвместни модели на характеристиките — транзакция с необичайна комбинация от сума, контрагент и код на сметка може да изглежда нормална във всяко отделно измерение. Многоизмерните аномалии, които вероятно са най-честият и икономически значим вид в счетоводството, няма да бъдат уловени от този подход без значително преработване.

Последващата литература потвърждава тези опасения. AnoLLM (ICLR 2025) от Amazon Science възприема различен подход: вместо да подканва за индекси на аномалии, той фино настройва LLM да моделира разпределението на данните и използва отрицателната логаритмична вероятност (negative log-likelihood) като оценка за аномалия, избягвайки напълно нестабилното парсване на изхода. CausalTAD (arXiv:2602.07798, февруари 2026) идентифицира друга празнина, споделена от този документ и AnoLLM: подредбата на колоните по време на сериализацията е произволна, игнорирайки причинно-следствените връзки между характеристиките. Пренареждането на колоните, за да се зачита причинно-следствената структура, подобрява средния AUC-ROC от ~0,80 на 0,83 в шест бенчмарка.

Защо това е важно за финансовия AI

Въпреки ограниченията си, посоката zero-shot е наистина интересна за откриване на аномалии в Beancount регистрите. Документът за AuditCopilot изискваше фина настройка върху етикетирани примери за аномалии — трудни за получаване на практика, тъй като реалните случаи на измами са редки, чувствителни и етикетирането им изисква експерти счетоводители. Подходът със синтетична фина настройка в документа (Llama2-AD, Mistral-AD) заобикаля това: генерирате реалистично изглеждащи партиди транзакции с изкуствени аномалии и правите фина настройка, без изобщо да докосвате реален регистър.

Механизмът на ниво партида съответства естествено на начина, по който счетоводителите всъщност мислят: „в транзакциите за този месец кои записи изглеждат необичайни спрямо останалите?“. Това е интуицията зад тестването на счетоводни записи при одита. Предизвикателството е, че реалните аномалии в регистрите са многоизмерни — плащане, което е нормално като сума, но необичайно като време, контрагент и комбинация от кодове на сметки. Изпращането на заявки за всяка характеристика независимо, както прави този документ, няма да улови такива случаи.

Това, което искам да видя, е версия на този подход, при която целият ред е вграден (embedded) и оценен цялостно — по-близо до това, което прави AnoLLM с моделирането на разпределението — приложен върху реалистична извадка от данни за транзакции на Beancount. Идеята за синтетична фина настройка заслужава сериозно проучване; генерирането на синтетични партиди от Beancount регистри с вмъкнати аномалии (грешни сметки, дублирани записи, неправдоподобни суми) е лесно, а фината настройка на 7B модел върху тях може да създаде полезен zero-shot одитор без необходимост от реални етикетирани данни.

Какво да прочетете след това

  • AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; най-директното разширение на тази работа, използващо оценка, базирана на вероятности, вместо прогнозиране на индекси чрез подсказване.
  • CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; адресира празнината в подредбата на колоните чрез привеждане на сериализацията в съответствие с причинно-следствената структура.
  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; по-широк бенчмарк, обхващащ задачи за откриване на аномалии в NLP, полезен за разбиране къде LLM вече са надеждни и къде не като детектори на аномалии.