Prejsť na hlavný obsah

AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Článok, ktorý tento týždeň čítam, je AuditCopilot: Leveraging LLMs for Fraud Detection in Double-Entry Bookkeeping (arXiv:2512.02726), ktorý v decembri 2025 publikovali Kadir, Macharla Vasu, Nair a Sonntag. Nachádza sa na prieniku výskumu LLM agentov a finančnej zhody: využíva základné modely na detekciu podvodných účtovných zápisov v skutočných podnikových účtovných knihách. Zo všetkých článkov v zozname Bean Labs je tento zatiaľ najviac zameraný priamo na ten istý formát surových dát, o ktorý sa zaujímame.

Článok

2026-05-22-auditcopilot-llm-fraud-detection-double-entry-bookkeeping

Každý audit verejne obchodovanej spoločnosti — nariadený štandardom PCAOB Auditing Standard AS 2401 — musí zahŕňať testovanie účtovných zápisov (Journal Entry Testing - JET): systematické kontroly účtovnej knihy na zápisy, ktoré aktivujú pravidlové heuristiky. Tieto pravidlá zahŕňajú veci ako „zápis zaúčtovaný po polnoci“, „zaokrúhlená suma“, „neobvyklá dvojica účtov“ alebo „zápis zaúčtovaný zriedkavo aktívnym používateľom“. Tieto pravidlá fungujú, ale generujú obrovské množstvo falošne pozitívnych výsledkov: audítori trávia väčšinu času vyraďovaním zjavného šumu.

AuditCopilot si kladie otázku, či LLM môžu tieto pravidlá nahradiť alebo doplniť. Systém odovzdáva každý účtovný zápis — štruktúrovaný ako textový úryvok podobný JSONu s poliami pre dátum zaúčtovania, sumy na strane Má dať/Dal, ID účtov, daňové sadzby a súbor vopred vypočítaných binárnych príznakov anomálií — promptu LLM, ktorý vráti binárny štítok anomálie a vysvetlenie v prirodzenom jazyku. Autori porovnávajú Mistral-8B, Gemma-2B, Gemma-7B a Llama-3.1-8B na syntetickej podnikovej účtovnej knihe aj na skutočnej anonymizovanej daňovej účtovnej knihe v porovnaní s tradičnými JET a základným modelom Isolation Forest.

Kľúčové myšlienky

  • Na syntetickom súbore dát (5 000 ID zápisov, ~1 % miera skutočných anomálií) dosahuje Mistral-8B s úplným promptom Presnosť (Precision) 0,90, Návratnosť (Recall) 0,98, F1 skóre 0,94 — v porovnaní so základným JET (Presnosť 0,53, Návratnosť 0,90, F1 0,50) a čo je kritické, len 12 falošne pozitívnych výsledkov oproti 942 v prípade JET.
  • „Úplný“ prompt AuditCopilot obsahuje nielen vlastnosti surového zápisu, ale aj globálne štatistiky súboru dát (priemer, medián, 95. a 99. percentil súm) a vopred vypočítané skóre Isolation Forest pre každý riadok. Tento kontextový inžiniering je kľúčový pre výkon.
  • Na reálnom súbore dát dosahuje Gemma-7B s úplným promptom Presnosť 0,89, Návratnosť 0,78, F1 0,83. Keď sa odstráni nápoveda Isolation Forest, presnosť kolabuje na 0,14 — samotný LLM túto záťaž nezvláda.
  • Vysvetlenia sú najobhájiteľnejším prínosom systému: na rozdiel od číselného skóre anomálie prichádza každý označený zápis s textovým zdôvodnením („táto suma presahuje 99. percentil pre tento klaster účtov a je zaúčtovaná mimo pracovných hodín“), ktoré môže audítor rýchlo prijať alebo zamietnuť.
  • Nikde nedochádza k jemnému doladeniu (fine-tuning). Všetko beží v režime zero-shot alebo s krátkym promptom systémovej roly, čo je dobré pre náklady na nasadenie, ale zároveň to znamená, že výsledky sú veľmi závislé od šablóny promptu.

Čo obstojí — a čo nie

Výsledok zníženia falošne pozitívnych nálezov je pozoruhodný a reálny. Prechod z 942 na 12 falošne pozitívnych výsledkov na rovnakých dátach je druh prevádzkového zisku, ktorý skutočne ovplyvňuje to, či sa nástroj v praxi bude používať. Tomuto smeru verím.

Mám však vážne výhrady k návrhu vyhodnotenia.

Po prvé, štítky „skutočnej pravdy“ (ground-truth) na syntetickom súbore dát sú samy o sebe vytvorené z pravidiel JET. Anomálie, ktoré boli vložené, sú presne tie typy vzorov, na ktoré boli JET navrhnuté. Takže tvrdenie, že „LLM prekonáva JET“ na testovacej sade označenej pomocou JET, môže čiastočne odrážať to, že sa LLM naučil napodobňovať rovnaké pravidlá z kontextových štatistík v prompte, a nie že by generalizoval nad ich rámec.

Po druhé, ablácia Isolation Forest na reálnych dátach je usvedčujúca spôsobom, ktorý článok nedostatočne rozoberá. F1 klesá z 0,83 na 0,24 bez skóre IF. To mi hovorí, že LLM funguje primárne ako flexibilný prah nad signálom IF, nie ako nezávislý detektor anomálií. Systém má bližšie k ML ansámblu s nadstavbou v prirodzenom jazyku než k „základnému modelu vykonávajúcemu auditné uvažovanie“.

Po tretie, iba jeden reálny súbor dát od jediného priemyselného partnera. Autori to priznávajú, ale znamená to, že nemôžeme posúdiť generalizáciu naprieč veľkosťami spoločností, účtovnými systémami alebo odvetviami.

Po štvrté, článok porovnáva výsledky s JET a jediným základným modelom ML (Isolation Forest). Detekcia anomálií založená na autoenkóderoch, XGBoost s inžinierskymi vlastnosťami a jednoduchá logistická regresia na skóre IF chýbajú. Priestor toho, čo sa tu považuje za „klasické ML“, je úzky.

Otázka halucinácií nie je riešená. Autori označujú vysvetlenia za kľúčový prínos, ale chýba vyhodnotenie toho, či sú textové zdôvodnenia fakticky správne alebo konzistentné s binárnou predpoveďou.

Prečo je to dôležité pre finančnú AI

Toto je najbližší existujúci článok k tomu, čo budujeme v Bean Labs. Beancount knihy sú systémy podvojného účtovníctva. Každá transakcia je súborom riadkov (postings). Detekcia anomálií nad týmito riadkami — neobvyklé účty, sumy mimo rozsahu, nepravdepodobné časové vzorce — je zrejmou prvou funkciou autonómneho finančného asistenta.

Výsledok AuditCopilot naznačuje, že správnym prístupom pre audit Beancount pravdepodobne nie je „zadať LLM surovú transakciu a opýtať sa, či je podozrivá“, ale skôr „vypočítať ľahký štatistický kontext (základné línie na úrovni účtov, časové rozdelenie, skóre Isolation Forest) a poskytnúť LLM tento obohatený kontext“. Hodnota LLM spočíva v syntéze a vysvetlení, nie v surovom skórovaní anomálií.

Zníženie počtu falošne pozitívnych výsledkov je tiež priamo relevantné. Auditný nástroj pre Beancount, ktorý pri každom spustení vyhodí 942 potenciálnych anomálií, bude ignorovaný. Ten, ktorý vyhodí 12 vysoko spoľahlivých kandidátov s vysvetleniami, sa bude používať. To nie je metrika výkonu — je to metrika produktu.

Obava o bezpečnosť spätného zápisu (write-back), na ktorej mi najviac záleží, nie je v tomto článku riešená. AuditCopilot iba číta a označuje; nenavrhuje opravy ani neupravuje účtovnú knihu. To je správny rozsah pre prvý článok, ale pre Bean Labs zostáva ťažký problém: keď už máte označenú anomáliu, ako sa bezpečne rozhodnúť, čo s ňou urobiť?

Čo čítať ďalej

  • Understanding Structured Financial Data with LLMs: A Case Study on Fraud Detection (arXiv:2512.13040, ACL 2026) — predstavuje FinFRE-RAG, ktorý pridáva príklady v kontexte pomocou RAG k rovnakému problému detekcie podvodov a testuje ho na štyroch verejných súboroch dát o podvodoch; priamo rieši obmedzenie AuditCopilota na jeden súbor dát.
  • Anomaly Detection in Double-entry Bookkeeping Data by Federated Learning System with Non-model Sharing Approach (arXiv:2501.12723) — zaoberá sa obmedzením súkromia, ktoré bráni spájaniu dát účtovných kníh naprieč firmami; federatívny prístup je pravdepodobne nevyhnutný pre akúkoľvek produkčnú službu auditu Beancount, ktorá chce trénovať na klientskych dátach bez ich centralizácie.
  • GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning (arXiv:2406.09187) — problém vynucovania bezpečnosti, ktorému sa AuditCopilot zámerne vyhýba: keď sú anomálie označené, ako zabezpečiť, aby agent vykonávajúci spätný zápis nevykonal zmeny, ktoré porušujú účtovné invarianty?