PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers
PHANTOM (NeurIPS 2025) pose la question à laquelle je voulais le plus de réponses avant de confier un grand livre Beancount à un LLM : un modèle peut-il réellement savoir quand il invente des choses à propos d'un document financier ? Les résultats ne sont pas rassurants, et les choix méthodologiques méritent d'être examinés de près.
L'article
%20%3A%20Mesurer%20la%20d%C3%A9tection%20d%27hallucinations%20par%20les%20LLM%20dans%20les%20documents%20financiers)
Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta et Bing Xiang — pour la plupart affiliés à IBM Research — ont conçu PHANTOM spécifiquement pour combler une lacune laissée par les benchmarks d'hallucination génériques. Les benchmarks standards testent des contextes courts et propres avec des requêtes bien formées. Les documents financiers sont tout le contraire : un seul dépôt 10-K dépasse couramment les 100 000 tokens, les chiffres sont précis au centime près, et le langage est dense, rempli de termes spécifiques au domaine ayant des significations non évidentes (EBITDA, revenus différés, dépréciation du goodwill). La contribution principale est un ensemble de triplets requête-réponse-document construit à partir de réels dépôts à la SEC — rapports annuels 10-K, dépôts de fonds communs de placement 497K et circulaires de sollicitation de procurations DEF 14A — où chaque réponse est soit correcte, soit délibérément hallucinées, validée par des annotateurs humains. Le benchmark étend ensuite ce jeu initial pour tester des longueurs de contexte allant d'environ 500 tokens jusqu'à 30 000 tokens, et fait varier systématiquement l'emplacement des informations pertinentes : au début, au milieu ou à la fin du contexte.
Idées clés
- La tâche est la détection d'hallucinations, et non la génération d'hallucinations : étant donné un segment de document et une réponse, il s'agit de classer si la réponse est ancrée (grounded) ou fabriquée. C'est une tâche plus simple que de générer une réponse ancrée — et pourtant, les modèles éprouvent encore de grandes difficultés.
- La longueur du contexte est cruciale. Le jeu de données initial utilise des segments d'environ 500 tokens. À mesure que le contexte passe à 10k, 20k et 30k tokens, les performances chutent de manière significative pour tous les modèles — ce qui est cohérent avec la découverte « Lost in the Middle » (arXiv:2307.03172) selon laquelle les LLM se dégradent lorsque l'information pertinente est enfouie au milieu d'un long contexte.
- Llama-3.3-70B-Instruct obtient le score F1 le plus élevé (0,916) sur le jeu de données initial — mais les auteurs signalent que ce modèle a également été utilisé pour générer ce jeu de données, ce qui pose un problème de circularité gonflant le score.
- Qwen3-30B-A3B-Thinking obtient un F1 = 0,882, surpassant tous les modèles fermés testés. Sa variante Instruct sans « thinking » obtient 0,848, ce qui suggère que le calcul au moment de l'inférence (raisonnement par chaîne de pensée) apporte une réelle valeur ajoutée ici.
- Les petits modèles (Qwen-2.5-7B) obtiennent des scores à peine supérieurs au hasard sur ce benchmark. La détection d'hallucinations sur de longs documents financiers semble nécessiter une capacité de modèle substantielle.
- Le réglage fin (fine-tuning) des modèles open-source sur les données PHANTOM améliore considérablement leurs taux de détection — l'article identifie cela comme la direction la plus prometteuse pour les praticiens.
Ce qui tient la route — et ce qui ne la tient pas
La méthodologie de construction est rigoureuse. L'annotation humaine sur le jeu initial, suivie d'une expansion systématique selon la longueur du contexte et le positionnement, donne à PHANTOM une structure qui manque à la plupart des jeux de données de NLP financier. La variation du positionnement est particulièrement utile : elle permet de mesurer si l'échec d'un modèle est lié à la longueur totale du contexte ou au schéma d'attention spécifique en forme de U (fort au début et à la fin, faible au milieu) documenté dans de nombreuses architectures de LLM.
La circularité de Llama-3.3-70B est un réel problème et les auteurs méritent d'être salués pour l'avoir signalé — mais cela signifie également que le meilleur résultat du benchmark est ininterprétable. Pour les praticiens, les chiffres les plus utiles sont probablement les résultats de Qwen3 et Phi-4, où une telle contamination n'existe pas.
Ce que j'aurais aimé trouver dans l'article : la courbe de dégradation réelle à mesure que la longueur du contexte passe de 500 à 30 000 tokens. L'article établit que la dégradation se produit et que le positionnement compte, mais je n'ai pas pu extraire les baisses spécifiques en points de pourcentage des documents disponibles. Cette granularité est importante pour décider de la taille des segments de récupération (chunks) dans un système de production. Il convient également de noter que le benchmark teste uniquement si un modèle détecte une hallucination dans une réponse présentée — il ne teste pas si le modèle hallucinera lorsqu'on lui demandera de produire une réponse de zéro. Ce sont des modes de défaillance liés mais différents, et un système qui réussit bien en détection peut encore échouer lamentablement en génération.
Enfin, le jeu de données couvre trois types de dépôts SEC. C'est une part significative de l'espace documentaire financier, mais cela laisse de côté les transcriptions de conférences téléphoniques sur les résultats, les rapports d'audit, les clauses restrictives dans les contrats de prêt et le genre de descriptions d'écritures comptables ad hoc qui remplissent un grand livre Beancount. La généralisation à ces formats reste une question ouverte.
Pourquoi cela compte pour l'IA en finance
L'hallucination est le problème de confiance majeur pour tout agent comptable autonome que je pourrais imaginer construire au-dessus de Beancount. Le scénario d'écriture (write-back) est le pire des cas : un agent qui lit un relevé bancaire, classifie une transaction et publie une écriture comptable. S'il hallucine le bénéficiaire, le montant ou le code de compte, le grand livre est silencieusement erroné. PHANTOM est le premier benchmark que je vois qui tente de mesurer si les modèles peuvent détecter cette catégorie d'erreur dans des conditions documentaires réalistes.
Le constat que les petits modèles (7B) sont proches du hasard en détection d'hallucinations est directement pertinent pour Bean Labs : si nous exécutons un agent local ou à faible latence, nous ne pouvons pas compter sur un modèle 7B pour auto-vérifier sa propre sortie. Nous avons besoin soit d'un modèle vérificateur plus grand, d'une vérification de récupération externe, ou d'un format de sortie contraint qui rend les hallucinations structurellement impossibles (par exemple, forcer le modèle à citer un numéro de ligne du document source avant de publier une écriture). Le résultat du réglage fin est encourageant : l'adaptation spécifique au domaine sur des données de type PHANTOM semble restaurer une grande partie de la capacité de détection, même pour les petits modèles, ce qui suggère qu'un vérificateur affiné pourrait être un composant pratique dans un pipeline d'écriture.
Lectures complémentaires
- SelfCheckGPT (Manakul et al., arXiv:2303.08896) — détection d'hallucinations par échantillonnage sans document de référence ; complète l'approche ancrée sur référence de PHANTOM et pourrait mieux se généraliser aux annotations de grand livre ouvertes.
- "Lost in the Middle" (Liu et al., arXiv:2307.03172) — l'article fondateur sur la dégradation de l'attention positionnelle dans les contextes longs ; les résultats de PHANTOM sur le placement sont essentiellement une réplication appliquée de cela dans le domaine financier.
- FinanceBench (Islam et al., 2023) — le benchmark de QA sur les dépôts SEC qui a montré que GPT-4 Turbo avec récupération échouait sur 81 % d'un échantillon de 150 cas ; se marie bien avec PHANTOM comme complément côté génération à la vue côté détection de PHANTOM.
