Doorgaan naar hoofdinhoud

PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM (NeurIPS 2025) stelt de vraag die ik het liefst beantwoord wilde zien voordat ik een LLM een Beancount-grootboek toevertrouw: kan een model echt zien wanneer het dingen verzint over een financieel document? De resultaten zijn niet geruststellend, en de methodologische keuzes zijn de moeite van het bekijken waard.

Het artikel

2026-04-19-phantom-hallucination-detection-financial-long-context

Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta en Bing Xiang — grotendeels verbonden aan IBM Research — hebben PHANTOM specifiek opgezet om een gat te dichten dat generieke hallucinatie-benchmarks openlaten. Standaard hallucinatie-benchmarks testen korte, schone contexten met goed geformuleerde zoekopdrachten. Financiële documenten zijn het tegenovergestelde: een enkele 10-K-indiening overschrijdt routinematig de 100.000 tokens, getallen zijn nauwkeurig tot op de cent en de taal is doorspekt met domeinspecifieke termen die niet-voor-de-hand-liggende betekenissen hebben (EBITDA, uitgestelde omzet, bijzondere waardevermindering van goodwill). De kernbijdrage is een dataset van triplet-combinaties (vraag-antwoord-document) opgebouwd uit echte SEC-filings — 10-K jaarverslagen, 497K beleggingsfonds-filings en DEF 14A proxy-verklaringen — waarbij elk antwoord ofwel correct is, ofwel bewust gehallucineerd, gevalideerd door menselijke beoordelaars. De benchmark breidt die basisset vervolgens uit om contextlengtes te testen van ~500 tokens tot wel 30.000 tokens, en varieert systematisch waar de relevante informatie verschijnt: aan het begin, in het midden of aan het einde van de context.

Belangrijke ideeën

  • De taak is hallucinatie-detectie, niet het genereren van hallucinaties: gegeven een stuk document en een antwoord, classificeer of het antwoord is verankerd in de tekst of is gefabriceerd. Dit is een eenvoudigere taak dan het genereren van een verankerd antwoord — en toch hebben modellen er grote moeite mee.
  • Contextlengte is van groot belang. De basisset gebruikt segmenten van ~500 tokens. Naarmate de context groeit naar 10K, 20K en 30K tokens, daalt de prestatie aanzienlijk bij alle modellen — consistent met de bevinding "Lost in the Middle" (arXiv:2307.03172) dat LLM's slechter presteren wanneer relevante informatie begraven ligt in het midden van een lange context.
  • Llama-3.3-70B-Instruct behaalt de hoogste F1-score van 0,916 op de basisdataset — maar de auteurs merken op dat dit model ook werd gebruikt om de basisdataset te genereren, wat een circulariteitsprobleem is dat het cijfer flatteert.
  • Qwen3-30B-A3B-Thinking behaalt F1 = 0,882, waarmee het alle geteste closed-source modellen overtreft. Zijn "niet-denkende" Instruct-tegenhanger scoort 0,848, wat suggereert dat test-time compute (chain-of-thought redeneren) hier echte waarde toevoegt.
  • Kleine modellen (Qwen-2.5-7B) scoren slechts iets boven willekeurig gokken op de benchmark. Hallucinatie-detectie over lange financiële documenten lijkt aanzienlijke modelcapaciteit te vereisen.
  • Het fine-tunen van open-source modellen op PHANTOM-data verbetert hun detectiepercentages aanzienlijk — het artikel identificeert dit als de meest veelbelovende richting voor professionals in de praktijk.

Wat overeind blijft — en wat niet

De constructiemethodologie is zorgvuldig. Menselijke annotatie op de basisset, gevolgd door systematische uitbreiding over contextlengtes en plaatsingsposities, geeft PHANTOM een structuur die de meeste financiële NLP-datasets missen. Vooral de variatie in plaatsing is nuttig: het stelt je in staat om te meten of de fout van een model te maken heeft met de totale contextlengte of met het specifieke U-vormige aandachtspatroon (sterk aan het begin en einde, zwak in het midden) dat is gedocumenteerd bij veel LLM-architecturen.

De circulariteit van Llama-3.3-70B is een reëel probleem en de auteurs verdienen lof voor het aankaarten ervan — maar het betekent ook dat het topresultaat van de benchmark oninterpreteerbaar is. Voor praktijkmensen zijn de resultaten van Qwen3 en Phi-4 waarschijnlijk nuttiger, omdat daar geen sprake is van dergelijke contaminatie.

Wat ik graag in het artikel had gezien: de feitelijke degradatiecurve naarmate de contextlengte groeit van 500 naar 30.000 tokens. Het artikel stelt vast dat er degradatie optreedt en dat plaatsing ertoe doet, maar ik kon de specifieke dalingen in percentagepunten niet uit het beschikbare materiaal halen. Die granulariteit is belangrijk bij het beslissen over de grootte van retrieval-chunks in een productiesysteem. Het is ook vermeldenswaard dat de benchmark alleen test of een model een hallucinatie detecteert in een gepresenteerd antwoord — het test niet of het model zal hallucineren wanneer het gevraagd wordt om zelf een antwoord te genereren. Dat zijn gerelateerde maar verschillende foutmodi, en een systeem dat goed scoort op detectie kan nog steeds falen bij generatie.

Ten slotte beslaat de dataset drie types SEC-filings. Dat is een betekenisvol deel van het financiële documentlandschap, maar het laat transcripts van winstoproepen, auditrapporten, convenantclausules in leningovereenkomsten en het soort ad-hoc omschrijvingen van journaalposten die een Beancount-grootboek vullen, buiten beschouwing. De generalisatie naar die formaten is een open vraag.

Waarom dit belangrijk is voor finance AI

Hallucinatie is het vertrouwensprobleem voor elke autonome boekhoudagent die ik me kan voorstellen op basis van Beancount. Het write-back-scenario is het ergste geval: een agent die een bankafschrift leest, een transactie classificeert en een journaalpost boekt. Als het de begunstigde, het bedrag of de rekeningcode hallucineert, is het grootboek stilletjes onjuist. PHANTOM is de eerste benchmark die ik heb gezien die probeert te meten of modellen dit type fouten kunnen opvangen in realistische documentomstandigheden.

De bevinding dat kleine modellen (7B) bijna op willekeurig niveau presteren bij hallucinatie-detectie is direct relevant voor Bean Labs: als we een on-device of low-latency agent draaien, kunnen we niet vertrouwen op een 7B-model om zijn eigen output te verifiëren. We hebben ofwel een groter verificatiemodel nodig, een externe retrieval-check of een beperkt output-formaat dat hallucinaties structureel onmogelijk maakt (bijv. het model dwingen een regelnummer uit het brondocument te citeren voordat een boeking wordt geplaatst). Het resultaat van de fine-tuning is bemoedigend: domeinspecifieke aanpassing op PHANTOM-achtige data lijkt veel van het detectievermogen te herstellen, zelfs voor kleinere modellen, wat suggereert dat een gefinetunede verificateur een praktisch onderdeel zou kunnen zijn in een write-back-pijplijn.

Wat je nu kunt lezen

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — op samples gebaseerde hallucinatie-detectie zonder referentiedocument; vult PHANTOM's op referentie gebaseerde aanpak aan en generaliseert mogelijk beter naar open grootboek-annotaties.
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — het fundamentele artikel over positionele aandachtsdegradatie in lange contexten; de PHANTOM-plaatsingsresultaten zijn in feite een toegepaste replicatie hiervan in het financiële domein.
  • FinanceBench (Islam et al., 2023) — de QA-benchmark over SEC-filings die liet zien dat GPT-4 Turbo met retrieval faalde in 81% van een steekproef van 150 gevallen; sluit goed aan bij PHANTOM als een generatie-tegenhanger van PHANTOM's detectie-invalshoek.