PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten
PHANTOM (NeurIPS 2025) stellt die Frage, die ich am dringendsten beantwortet haben wollte, bevor ich einem LLM ein Beancount-Hauptbuch anvertraue: Kann ein Modell tatsächlich erkennen, wenn es sich Dinge über ein Finanzdokument ausdenkt? Die Ergebnisse sind nicht beruhigend, und die methodischen Entscheidungen sind eine genauere Untersuchung wert.
Das Paper
Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta und Bing Xiang – die meisten davon bei IBM Research tätig – haben PHANTOM speziell entwickelt, um eine Lücke zu schließen, die generische Halluzinations-Benchmarks offen lassen. Standard-Halluzinations-Benchmarks testen kurze, saubere Kontexte mit gut formulierten Abfragen. Finanzdokumente sind das Gegenteil: Ein einziger 10-K-Bericht überschreitet routinemäßig 100.000 Token, Zahlen sind centgenau und die Sprache ist gespickt mit domänenspezifischen Begriffen, die nicht offensichtliche Bedeutungen haben (EBITDA, Rechnungsabgrenzungsposten, Firmenwertabschreibung). Der Kernbeitrag ist ein Datensatz aus Abfrage-Antwort-Dokument-Tripletts, die aus echten SEC-Einreichungen erstellt wurden – 10-K-Jahresberichte, 497K-Berichte für Investmentfonds und DEF 14A-Vollmachtserklärungen (Proxy Statements) –, wobei jede Antwort entweder korrekt oder absichtlich halluziniert ist, validiert durch menschliche Annotatoren. Der Benchmark erweitert dieses Seed-Set dann, um Kontextlängen von ca. 500 Token bis hin zu 30.000 Token zu testen, und variiert systematisch, wo die relevanten Informationen erscheinen: am Anfang, in der Mitte oder am Ende des Kontexts.
Kernideen
- Die Aufgabe ist die Halluzinationserkennung, nicht die Halluzinationsgenerierung: Gegeben ein Dokumentenabschnitt und eine Antwort, soll klassifiziert werden, ob die Antwort fundiert oder erfunden ist. Dies ist eine einfachere Aufgabe als das Generieren einer fundierten Antwort – und dennoch haben die Modelle große Schwierigkeiten damit.
- Die Kontextlänge spielt eine große Rolle. Das Seed-Set verwendet Abschnitte von ca. 500 Token. Wenn der Kontext auf 10K, 20K und 30K Token anwächst, sinkt die Leistung bei allen Modellen erheblich – konsistent mit dem „Lost in the Middle“-Befund (arXiv:2307.03172), wonach LLMs abbauen, wenn relevante Informationen in der Mitte eines langen Kontexts vergraben sind.
- Llama-3.3-70B-Instruct erreicht mit 0,916 den höchsten F1-Score auf dem Seed-Datensatz – aber die Autoren weisen darauf hin, dass dieses Modell auch zur Generierung des Seed-Datensatzes verwendet wurde, was ein Zirkularitätsproblem darstellt, das den Wert künstlich aufbläht.
- Qwen3-30B-A3B-Thinking erzielt F1 = 0,882 und übertrifft damit alle getesteten Closed-Source-Modelle. Sein Instruct-Geschwistermodell ohne „Thinking“ erreicht 0,848, was darauf hindeutet, dass Test-Time Compute (Chain-of-Thought-Reasoning) hier einen echten Mehrwert bietet.
- Kleine Modelle (Qwen-2.5-7B) schneiden nur geringfügig besser ab als Zufallsraten im Benchmark. Die Halluzinationserkennung in langen Finanzdokumenten scheint eine erhebliche Modellkapazität zu erfordern.
- Das Fine-Tuning von Open-Source-Modellen auf PHANTOM-Daten verbessert deren Erkennungsraten erheblich – das Paper identifiziert dies als die vielversprechendste Richtung für Praktiker.
Was Bestand hat – und was nicht
Die Konstruktionsmethodik ist sorgfältig. Die menschliche Annotation des Seed-Sets, gefolgt von einer systematischen Erweiterung über Kontextlängen und Platzierungspositionen hinweg, verleiht PHANTOM eine Struktur, die den meisten Finanz-NLP-Datensätzen fehlt. Insbesondere die Variation der Platzierung ist nützlich: Sie ermöglicht es zu messen, ob das Versagen eines Modells an der gesamten Kontextlänge liegt oder an dem spezifischen U-förmigen Aufmerksamkeitsmuster (stark am Anfang und Ende, schwach in der Mitte), das bei vielen LLM-Architekturen dokumentiert wurde.
Die Zirkularität bei Llama-3.3-70B ist ein echtes Problem, und es ist den Autoren hoch anzurechnen, dass sie darauf hinweisen – aber es bedeutet auch, dass das Top-Ergebnis des Benchmarks nicht interpretierbar ist. Für Anwender sind wahrscheinlich die Ergebnisse von Qwen3 und Phi-4 nützlicher, bei denen keine solche Kontamination vorliegt.
Was ich mir vom Paper gewünscht hätte: die tatsächliche Degradationskurve, während die Kontextlänge von 500 auf 30.000 Token anwächst. Das Paper stellt fest, dass eine Degradation stattfindet und dass die Platzierung wichtig ist, aber ich konnte die spezifischen prozentualen Einbußen nicht aus den verfügbaren Materialien extrahieren. Diese Granularität ist wichtig, um zu entscheiden, wo die Retrieval-Chunk-Größe in einem Produktionssystem angesetzt werden soll. Es ist auch erwähnenswert, dass der Benchmark nur testet, ob ein Modell eine Halluzination in einer präsentierten Antwort erkennt – er testet nicht, ob das Modell halluziniert, wenn es aufgefordert wird, eine Antwort von Grund auf neu zu erstellen. Dies sind verwandte, aber unterschiedliche Fehlermodi, und ein System, das bei der Erkennung gut abschneidet, kann bei der Generierung immer noch kläglich versagen.
Schließlich deckt der Datensatz drei Arten von SEC-Einreichungen ab. Das ist ein bedeutender Ausschnitt des Finanzdokumentenraums, lässt aber Transkripte von Gewinnmitteilungen, Prüfungsberichte, Kreditklauseln in Darlehensverträgen und die Art von Ad-hoc-Beschreibungen von Buchungssätzen weg, die ein Beancount-Hauptbuch füllen. Die Generalisierung auf diese Formate bleibt eine offene Frage.
Warum dies für Finanz-KI wichtig ist
Halluzination ist das Vertrauensproblem für jeden autonomen Buchhaltungs-Agenten, den ich mir auf Basis von Beancount vorstellen kann. Das Write-back-Szenario ist der Worst Case: Ein Agent, der einen Kontoauszug liest, eine Transaktion klassifiziert und einen Buchungssatz erstellt. Wenn er den Zahlungsempfänger, den Betrag oder den Kontocode halluziniert, ist das Hauptbuch unbemerkt falsch. PHANTOM ist der erste Benchmark, den ich gesehen habe, der versucht zu messen, ob Modelle diese Klasse von Fehlern unter realistischen Dokumentbedingungen abfangen können.
Die Feststellung, dass kleine Modelle (7B) bei der Halluzinationserkennung fast auf dem Niveau von Zufallsraten agieren, ist für Bean Labs direkt relevant: Wenn wir einen On-Device- oder Low-Latency-Agenten betreiben, können wir uns nicht darauf verlassen, dass ein 7B-Modell seine eigene Ausgabe selbst verifiziert. Wir benötigen entweder ein größeres Verifier-Modell, eine externe Retrieval-Prüfung oder ein eingeschränktes Ausgabeformat, das Halluzinationen strukturell unmöglich macht (z. B. indem das Modell gezwungen wird, eine Zeilennummer aus dem Quelldokument zu zitieren, bevor es eine Buchung vornimmt). Das Fine-Tuning-Ergebnis ist ermutigend: Eine domänenspezifische Anpassung an PHANTOM-ähnliche Daten scheint einen Großteil der Erkennungsfähigkeit selbst bei kleineren Modellen wiederherzustellen, was darauf hindeutet, dass ein feinabgestimmter Verifier eine praktische Komponente in einer Write-back-Pipeline sein könnte.
Was Sie als Nächstes lesen sollten
- SelfCheckGPT (Manakul et al., arXiv:2303.08896) – stichprobenbasierte Halluzinationserkennung ohne Referenzdokument; ergänzt den referenzbasierten Ansatz von PHANTOM und lässt sich möglicherweise besser auf offene Hauptbuch-Annotationen generalisieren.
- "Lost in the Middle" (Liu et al., arXiv:2307.03172) – das grundlegende Paper über die Verschlechterung der positionsabhängigen Aufmerksamkeit in langen Kontexten; die Platzierungsergebnisse von PHANTOM sind im Wesentlichen eine angewandte Replikation davon im Finanzbereich.
- FinanceBench (Islam et al., 2023) – der QA-Benchmark über SEC-Einreichungen, der zeigte, dass GPT-4 Turbo mit Retrieval in 81 % einer Stichprobe von 150 Fällen versagte; passt gut zu PHANTOM als generierungsseitige Ergänzung zur erkennungsseitigen Sicht von PHANTOM.
