Prejsť na hlavný obsah

PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM (NeurIPS 2025) si kladie otázku, na ktorú som najviac chcel poznať odpoveď predtým, než zverím LLM vedenie Beancount účtovnej knihy: dokáže model skutočne rozpoznať, kedy si vymýšľa o finančnom dokumente? Výsledky nie sú upokojujúce a metodologické voľby stoja za dôkladné preskúmanie.

Odborný príspevok

2026-04-19-phantom-hallucination-detection-financial-long-context

Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta a Bing Xiang — väčšinou spojení s IBM Research — zostavili PHANTOM špeciálne na vyplnenie medzery, ktorú zanechávajú všeobecné benchmarky halucinácií. Štandardné benchmarky halucinácií testujú krátke, čisté kontexty s dobre formulovanými dopytmi. Finančné dokumenty sú opakom: jedno podanie 10-K bežne presahuje 100 000 tokenov, čísla sú presné na centy a jazyk je presýtený odbornými termínmi so špecifickým významom (EBITDA, odložené výnosy, zníženie hodnoty goodwillu). Hlavným prínosom je súbor trojíc dopyt-odpoveď-dokument vytvorený z reálnych podaní SEC — ročných správ 10-K, podaní podielových fondov 497K a splnomocnení DEF 14A — kde každá odpoveď je buď správna, alebo úmyselne halucinovaná, čo overili ľudskí anotátori. Benchmark potom rozširuje túto základnú sadu na testovanie dĺžok kontextu od ~500 tokenov až po 30 000 tokenov a systematicky mení miesto, kde sa relevantná informácia nachádza: na začiatku, v strede alebo na konci kontextu.

Kľúčové myšlienky

  • Úlohou je detekcia halucinácií, nie generovanie halucinácií: na základe fragmentu dokumentu a odpovede klasifikovať, či je odpoveď podložená alebo vymyslená. Ide o jednoduchšiu úlohu než generovanie podloženej odpovede — napriek tomu majú modely veľké problémy.
  • Dĺžka kontextu je veľmi dôležitá. Základná sada používa fragmenty s dĺžkou ~500 tokenov. S rastom kontextu na 10K, 20K a 30K tokenov výkonnosť výrazne klesá u všetkých modelov — čo je v súlade so zistením „Lost in the Middle“ (arXiv:2307.03172), že LLM degradujú, keď je relevantná informácia pochovaná v strede dlhého kontextu.
  • Llama-3.3-70B-Instruct dosahuje najvyššie skóre F1 0,916 na základnej sade dát — autori však upozorňujú, že tento model bol použitý aj na generovanie základnej sady, čo predstavuje problém cirkularity, ktorý toto číslo umelo zvyšuje.
  • Qwen3-30B-A3B-Thinking dosahuje F1 = 0,882, čím prekonáva všetky testované uzavreté modely. Jeho „nepremýšľajúci“ súrodenec Instruct dosahuje 0,848, čo naznačuje, že výpočet v čase testovania (uvažovanie v reťazci myšlienok) prináša reálnu hodnotu.
  • Malé modely (Qwen-2.5-7B) dosahujú v benchmarku skóre len mierne nad úrovňou náhodného tipovania. Detekcia halucinácií v dlhých finančných dokumentoch si zjavne vyžaduje značnú kapacitu modelu.
  • Jemné doladenie (fine-tuning) open-source modelov na dátach PHANTOM podstatne zlepšuje mieru ich detekcie — autor príspevku to identifikuje ako najsľubnejší smer pre odborníkov z praxe.

Čo obstojí — a čo nie

Metodika zostavenia je dôkladná. Ľudská anotácia základnej sady, nasledovaná systematickým rozširovaním dĺžok kontextu a pozícií umiestnenia, dáva PHANTOM-u štruktúru, ktorú väčšina finančných NLP datasetov postráda. Najmä variabilita umiestnenia je užitočná: umožňuje merať, či zlyhanie modelu súvisí s celkovou dĺžkou kontextu alebo so špecifickým vzorcom pozornosti v tvare písmena U (silná na začiatku a na konci, slabá v strede), ktorý bol zdokumentovaný u mnohých architektúr LLM.

Cirkularita Llama-3.3-70B je reálnym problémom a autori si zaslúžia uznanie za to, že na to upozornili — znamená to však aj to, že najlepší výsledok benchmarku je neinterpretovateľný. Pre praktikov sú užitočnejšie pravdepodobne výsledky Qwen3 a Phi-4, kde k takejto kontaminácii nedošlo.

Čo by som si prial v práci nájsť: skutočnú krivku degradácie pri raste kontextu z 500 na 30 000 tokenov. Práca potvrdzuje, že k degradácii dochádza a že na umiestnení záleží, ale z dostupných materiálov som nedokázal vyčítať konkrétne poklesy v percentuálnych bodoch. Táto granularita je dôležitá pre rozhodnutie, ako nastaviť veľkosť fragmentu pri vyhľadávaní (retrieval chunk size) v produkčnom systéme. Je tiež dôležité poznamenať, že benchmark testuje iba to, či model deteguje halucináciu v predloženej odpovedi — netestuje, či model bude halucinovať, keď bude požiadaný o vytvorenie odpovede od nuly. Ide o súvisiace, ale odlišné režimy zlyhania a systém, ktorý dosahuje dobré výsledky pri detekcii, môže stále fatálne zlyhať pri generovaní.

Napokon, dataset pokrýva tri typy podaní SEC. To je významný výsek finančnej dokumentácie, ale vynecháva prepisy hovorov k výsledkom hospodárenia, audítorské správy, doložky o kovenantoch v úverových zmluvách a ten druh ad-hoc popisov účtovných zápisov, ktoré vypĺňajú Beancount účtovnú knihu. Zovšeobecnenie na tieto formáty zostáva otvorenou otázkou.

Prečo je to dôležité pre finančnú AI

Halucinácia je problémom dôvery pre každého autonómneho účtovného agenta, ktorého si dokážem predstaviť postaviť nad Beancountom. Scenár spätného zápisu je najhorším prípadom: agent, ktorý číta bankový výpis, klasifikuje transakciu a zaúčtuje účtovný zápis. Ak si halucinuje príjemcu, sumu alebo kód účtu, účtovná kniha je potichu nesprávna. PHANTOM je prvý benchmark, ktorý som videl, ktorý sa pokúša merať, či modely dokážu zachytiť túto triedu chýb v realistických podmienkach dokumentov.

Zistenie, že malé modely (7B) podávajú pri detekcii halucinácií výkon blízky náhodnému, je priamo relevantné pre Bean Labs: ak prevádzkujeme agenta v zariadení alebo s nízkou latenciou, nemôžeme sa spoliehať na to, že 7B model sám overí svoj vlastný výstup. Potrebujeme buď väčší verifikačný model, externú kontrolu vyhľadávaním alebo obmedzený formát výstupu, ktorý halucinácie štrukturálne znemožňuje (napr. prinútenie modelu citovať číslo riadku zo zdrojového dokumentu pred zaúčtovaním zápisu). Výsledok jemného doladenia je povzbudivý: doménovo špecifická adaptácia na dátach typu PHANTOM zrejme obnovuje veľkú časť detekčných schopností aj u menších modelov, čo naznačuje, že jemne doladený verifikátor by mohol byť praktickou súčasťou procesu spätného zápisu.

Čo si prečítať ďalej

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — detekcia halucinácií založená na vzorkách bez referenčného dokumentu; dopĺňa prístup PHANTOM založený na referenciách a môže lepšie zovšeobecňovať na otvorené anotácie účtovnej knihy.
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — základná práca o degradácii pozičnej pozornosti v dlhých kontextoch; výsledky umiestnenia PHANTOM sú v podstate aplikovanou replikáciou tohto javu vo finančnej doméne.
  • FinanceBench (Islam et al., 2023) — QA benchmark nad podaniami SEC, ktorý ukázal, že GPT-4 Turbo s vyhľadávaním zlyhal v 81 % zo vzorky 150 prípadov; dobre sa dopĺňa s PHANTOM-om ako protipól zameraný na generovanie k detekčnému pohľadu PHANTOM-u.