Prejsť na hlavný obsah

Detekcia anomálií s nulovým učením pomocou LLM: Ako GPT-4 funguje pri tabuľkových dátach

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

V článku o AuditCopilot, ktorý som čítal minulý mesiac, sa benchmarkovali modely LLM v oblasti detekcie podvodov v účtovných zápisoch pomocou jemného doladenia (fine-tuning) na označených dátach anomálií. Odvtedy som bol zvedavý, či by nás zero-shot prompting (promptovanie s nulovým učením) mohlo posunúť k cieľu bez potreby označených anomálií alebo špecifického doladenia pre danú doménu. Presne to sľubuje práca „Detekcia anomálií v tabuľkových dátach pomocou LLM“ od Li, Zhao, Qiu, Kloft, Smyth, Rudolph a Mandt (arXiv:2406.16308), workshopový článok z polovice roku 2024. Hlavný výsledok — GPT-4 vyrovnávajúci klasické transduktívne metódy ako ECOD — znel takmer príliš dobre, takže som si ho pozorne prečítal.

O článku

2026-06-21-anomaly-detection-tabular-data-llms

Základnou myšlienkou je to, čo autori nazývajú detekcia anomálií na „úrovni dávky“ (batch-level). Namiesto trénovania modelu na tréningových dátach a následného skórovania jednotlivých testovacích bodov predložíte LLM v čase inferencie dávku N riadkov a požiadate ho, aby identifikoval, ktoré riadky sú anomálne vzhľadom na ostatné v tej istej dávke. Anomálie sú v rámci každej dávky zriedkavé, takže dostatočne schopný model by mal implicitne rozpoznať väčšinový vzorec a označiť odľahlé hodnoty. Žiadne pretrénovanie, žiadne označené príklady — len predtrénované znalosti LLM o svete a uvažovanie v kontexte (in-context reasoning).

Model hodnotia na benchmarku ODDS s 32 dátovými sadami, čo je štandardná zbierka reálnych problémov detekcie anomálií v tabuľkových dátach. Kvôli limitom kontextového okna obmedzili každú vyhodnocovaciu dávku na 150 riadkov a 10 stĺpcov. Príznaky (features) sa serializujú po jednej dimenzii naraz pomocou šablóny „Data i is x_i.“ a LLM dostane inštrukciu pomenovať anomálne indexy v každej dimenzii zvlášť; výsledné skóre anomálie riadku agreguje, koľko dimenzií ho označilo.

Pri proprietárnych modeloch testujú zero-shot prístup. Pri open-source modeloch (Llama2-7B, Llama2-70B, Mistral-7B) je výkon v režime zero-shot slabý, preto navrhujú aj jemné doladenie na syntetickej dátovej sade 5 000 dávok vygenerovaných z Gaussových zmesí a kategorických rozdelení — nie sú potrebné žiadne reálne označenia anomálií. Jemne doladené varianty sa nazývajú Llama2-AD a Mistral-AD.

Kľúčové myšlienky

  • GPT-4 v režime zero-shot dosahuje priemerné AUROC 74,1 v 32 dátových sadách ODDS v porovnaní so 75,5 pri ECOD (najlepší klasický baseline) a 70,7 pri KNN. GPT-3.5 zaostáva so 68,3.
  • Llama2-7B zero-shot skóruje len 51,1 — čo je v podstate náhodný výsledok — ale jemné doladenie na syntetických dátach ho posúva na 60,0, čo je zisk +8,9 bodu. Mistral-7B sa zlepšuje zo 62,4 na 69,1 (+6,7 bodu).
  • Rámcovanie na „úrovni dávky“ je zaujímavý konceptuálny krok: LLM funguje ako implicitný odhad hustoty nad dávkou, a nie ako diskriminátor vytrénovaný na oddeľovanie tried.
  • Jemné doladenie využíva LoRA len na syntetických Gaussových a kategorických dátach — nie sú potrebné žiadne skutočné anotácie anomálií. To je významná praktická výhoda, ak sa tento prístup dá zovšeobecniť.
  • Parsovanie výstupu je pri open-source modeloch krehké; autori vynucujú gramatické obmedzenia a používajú regex vzorce na extrakciu indexov anomálií.

Čo obstojí — a čo nie

Pokrytie benchmarkov je najväčším problémom. Článok porovnáva výsledky len s dvoma klasickými referenčnými hodnotami: KNN a ECOD. Isolation Forest, LOF, One-Class SVM a akékoľvek hlboké učenie pre detekciu anomálií úplne chýbajú. ECOD je náhodou silný baseline na ODDS — ale GPT-4 ho jasne neprekonáva (74,1 vs 75,5) a rovnako ani Mistral-AD (69,1). Pri širšom súbore referenčných hodnôt nie je isté, či by si GPT-4 udržal svoju pozíciu.

Obmedzenie na 150 riadkov / 10 stĺpcov je tiež vážnym limitom, ktorému sa článok dostatočne nevenuje. Reálne účtovné knihy majú tisíce transakcií a oveľa viac príznakov. Či sa prístup na úrovni dávky škáluje — alebo či degraduje, pretože anomálie sa väčších dávkach s rozmanitejšími vzorcami ťažšie rozlišujú — nebolo testované.

Čísla rozptylu sú znepokojujúce. GPT-3.5 v dátovej sade breastw dosahuje AUROC 63,1 ± 34,4. To nie je metóda, ktorú môžete nasadiť, keď sa výsledok jedného spustenia môže pohybovať kdekoľvek od 30 do 98. GPT-4 je stabilnejší (98,7 ± 0,5 pri breastw), ale v iných dátových sadách vykazuje podobný rozptyl.

Predpoklad nezávislosti príznakov je ďalšou slabinou. LLM dopytuje každú dimenziu príznaku samostatne a agreguje skóre. Nedokáže uvažovať o spoločných vzorcoch príznakov — transakcia s nezvyčajnou kombináciou sumy, protistrany a kódu účtu sa môže v každej jednotlivej dimenzii zdať normálna. Multidimenzionálne anomálie, ktoré sú pravdepodobne najbežnejším a ekonomicky najvýznamnejším druhom v účtovníctve, tento prístup bez výrazného prepracovania nezachytí.

Nadväzujúca literatúra tieto obavy potvrdzuje. AnoLLM (ICLR 2025) od Amazon Science volí iný prístup: namiesto dopytovania indexov anomálií jemne dolaďuje LLM na modelovanie distribúcie dát a ako skóre anomálie používa zápornú logaritmickú vierohodnosť (negative log-likelihood), čím sa úplne vyhýba krehkému režimu parsovania výstupu. CausalTAD (arXiv:2602.07798, február 2026) identifikuje ďalšiu medzeru spoločnú pre tento článok aj AnoLLM: poradie stĺpcov počas serializácie je náhodné, čo ignoruje kauzálne vzťahy medzi príznakmi. Zmena poradia stĺpcov tak, aby rešpektovala kauzálnu štruktúru, zlepšuje priemerné AUC-ROC z ~0,80 na 0,83 v šiestich benchmarkoch.

Prečo je to dôležité pre finančnú AI

Napriek svojim obmedzeniam je zero-shot smerovanie pre detekciu anomálií v účtovných knihách Beancount skutočne zaujímavé. Článok o AuditCopilot vyžadoval jemné doladenie na označených príkladoch anomálií — čo je v praxi ťažké získať, pretože reálne prípady podvodov sú zriedkavé, citlivé a ich označovanie vyžaduje expertov na účtovníctvo. Prístup so syntetickým jemným doladením (Llama2-AD, Mistral-AD) to obchádza: vygenerujete realisticky vyzerajúce dávky transakcií s umelými anomáliami a doladíte model bez toho, aby ste sa dotkli skutočnej účtovnej knihy.

Mechanizmus na úrovni dávky prirodzene zodpovedá tomu, ako účtovníci v skutočnosti premýšľajú: „ktoré zápisy v transakciách za tento mesiac vyzerajú nezvyčajne v porovnaní s ostatnými?“ To je intuícia, ktorá stojí za testovaním účtovných zápisov pri audite. Výzvou zostáva, že reálne anomálie v účtovných knihách sú multidimenzionálne — platba, ktorá je bežná v sume, ale nezvyčajná v kombinácii načasovania, protistrany a kódu účtu. Samostatné dopytovanie každého príznaku, ako to robí tento článok, takéto prípady nezachytí.

To, čo by som chcel vidieť, je verzia tohto prístupu, kde sa celý riadok vloží (embedding) a vyhodnotí holisticky — bližšie k tomu, čo robí AnoLLM s modelovaním distribúcie — aplikovaná na realistickú vzorku dát transakcií Beancount. Myšlienka syntetického jemného doladenia si zaslúži vážny prieskum; generovanie syntetických dávok účtovných kníh Beancount s vloženými anomáliami (nesprávne účty, duplicitné zápisy, nepravdepodobné sumy) je priamočiare a jemné doladenie 7B modelu na týchto dátach by mohlo vytvoriť užitočného zero-shot audítora bez potreby akýchkoľvek reálne označených dát.

Čo si prečítať ďalej

  • AnoLLM: Large Language Models for Tabular Anomaly Detection — ICLR 2025, OpenReview ID 7VkHffT5X2; najpriamejšie rozšírenie tejto práce, využívajúce skórovanie založené na vierohodnosti namiesto predikcie indexov cez prompty.
  • CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection — arXiv:2602.07798; rieši medzeru v poradí stĺpcov zosúladením serializácie s kauzálnou štruktúrou.
  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection — arXiv:2412.11142, ACL Findings 2025; širší benchmark pokrývajúci úlohy detekcie anomálií v NLP, užitočný pre pochopenie toho, kde sú LLM už teraz spoľahlivé a kde nie.