PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers
PHANTOM (NeurIPS 2025) planteja la pregunta que més volia respondre abans de confiar en un LLM per tocar un llibre major de Beancount: pot un model saber realment quan s'està inventant coses sobre un document financer? Els resultats no són encoratjadors, i les decisions metodològiques val la pena examinar-les amb atenció.
L'article
%3A%20Mesurant%20la%20detecci%C3%B3%20d%27al%C2%B7lucinacions%20d%27LLM%20en%20documents%20financers)
Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta i Bing Xiang — la majoria afiliats a IBM Research — van construir PHANTOM específicament per omplir un buit que deixen els bancs de proves d'al·lucinacions genèrics. Els bancs de proves d'al·lucinacions estàndard proven contextos curts i nets amb consultes ben formades. Els documents financers són tot el contrari: una sola presentació 10-K supera habitualment els 100.000 tokens, els números són precisos fins al cèntim i el llenguatge és dens amb termes específics del domini que tenen significats no obvis (EBITDA, ingressos diferits, deteriorament del fons de comerç). La contribució principal és un conjunt de dades de triplets consulta-resposta-document creat a partir de presentacions reals a la SEC — informes anuals 10-K, presentacions de fons d'inversió 497K i declaracions de representació DEF 14A — on cada resposta és correcta o bé al·lucinada deliberadament, validada per anotadors humans. El banc de proves amplia després aquest conjunt inicial per provar longituds de context des d'uns 500 tokens fins a 30.000, i varia sistemàticament on apareix la informació rellevant: al principi, al mig o al final del context.
Idees clau
- La tasca és la detecció d'al·lucinacions, no la generació d'al·lucinacions: donat un fragment de document i una resposta, s'ha de classificar si la resposta està fonamentada o és fabricada. Aquesta és una tasca més senzilla que generar una resposta fonamentada; tanmateix, els models encara tenen moltes dificultats.
- La longitud del context importa molt. El conjunt inicial utilitza fragments d'uns 500 tokens. A mesura que el context creix fins a 10K, 20K i 30K tokens, el rendiment cau significativament en tots els models, en línia amb la troballa de "Lost in the Middle" (arXiv:2307.03172) que indica que els LLM es degraden quan la informació rellevant està enterrada al mig d'un context llarg.
- Llama-3.3-70B-Instruct aconsegueix la puntuació F1 més alta de 0,916 en el conjunt inicial, però els autors adverteixen que aquest model també es va utilitzar per generar el conjunt inicial, la qual cosa és un problema de circularitat que infla la xifra.
- Qwen3-30B-A3B-Thinking aconsegueix un F1 = 0,882, superant tots els models de codi tancat provats. El seu germà Instruct sense pensament obté un 0,848, cosa que suggereix que el càlcul en temps de prova (raonament en cadena de pensament) aporta un valor real aquí.
- Els models petits (Qwen-2.5-7B) puntuen només lleugerament per sobre de l'atzar en el banc de proves. La detecció d'al·lucinacions en documents financers llargs sembla requerir una capacitat de model substancial.
- L'ajust precís (fine-tuning) de models de codi obert amb dades de PHANTOM millora substancialment les seves taxes de detecció; l'article identifica aquesta com la direcció més prometedora per als professionals.
Què se sosté — i què no
La metodologia de construcció és acurada. L'anotació humana en el conjunt inicial, seguida d'una expansió sistemàtica a través de longituds de context i posicions de col·locació, dóna a PHANTOM una estructura de la qual manquen la majoria dels conjunts de dades de PNL financer. La variació de la col·locació en particular és útil: permet mesurar si el fracàs d'un model es deu a la longitud total del context o al patró d'atenció específic en forma d'U (fort al principi i al final, feble al mig) que s'ha documentat en moltes arquitectures d'LLM.
La circularitat de Llama-3.3-70B és un problema real i els autors mereixen crèdit per assenyalar-lo, però també significa que el millor resultat del banc de proves és ininterpretable. Per als professionals, les xifres més útils són probablement els resultats de Qwen3 i Phi-4, on no existeix aquesta contaminació.
El que m'agradaria que hagués proporcionat l'article: la corba de degradació real a mesura que la longitud del context creix de 500 a 30.000 tokens. L'article estableix que la degradació es produeix i que la col·locació importa, però no he pogut extreure les caigudes específiques en punts percentuals dels materials disponibles. Aquesta granularitat és important per decidir on establir la mida del fragment de recuperació en un sistema de producció. També val la pena assenyalar que el banc de proves només avalua si un model detecta una al·lucinació en una resposta presentada; no avalua si el model al·lucinarà quan se li demani que produeixi una resposta des de zero. Aquests són modes de fallada relacionats però diferents, i un sistema que puntua bé en detecció encara pot fallar estrepitosament en la generació.
Finalment, el conjunt de dades cobreix tres tipus de presentacions a la SEC. Aquesta és una part significativa de l'espai de documents financers, però deixa fora les transcripcions de trucades de resultats, els informes d'auditoria, les clàusules de conveni en acords de préstec i el tipus de descripcions d'assentaments ad-hoc que omplen un llibre major de Beancount. La generalització a aquests formats és una qüestió oberta.
Per què això és important per a la IA financera
L'al·lucinació és el problema de confiança per a cada agent de comptabilitat autònom que pugui imaginar construir sobre Beancount. L'escenari de retroescriptura (write-back) és el pitjor cas: un agent que llegeix un extracte bancari, classifica una transacció i publica un assentament. Si al·lucina el beneficiari, l'import o el codi de compte, el llibre major serà erroni de manera silenciosa. PHANTOM és el primer banc de proves que he vist que intenta mesurant si els models poden detectar aquesta classe d'error en condicions de documents realistes.
La troballa que els models petits (7B) funcionen gairebé a l'atzar en la detecció d'al·lucinacions és directament rellevant per a Bean Labs: si estem executant un agent local o de baixa latència, no podem confiar en un model de 7B per autoverificar la seva pròpia sortida. Necessitem un model verificador més gran, una comprovació de recuperació externa o un format de sortida restringit que faci que les al·lucinacions siguin estructuralment impossibles (per exemple, obligant el model a citar un número de línia del document d'origen abans de publicar un assentament). El resultat de l'ajust precís és encoratjador: l'adaptació específica del domini en dades de l'estil PHANTOM sembla recuperar gran part de la capacitat de detecció fins i tot per a models més petits, cosa que suggereix que un verificador ajustat podria ser un component pràctic en un flux de treball de retroescriptura.
Què llegir a continuació
- SelfCheckGPT (Manakul et al., arXiv:2303.08896) — detecció d'al·lucinacions basada en mostres sense un document de referència; complementa l'enfocament de PHANTOM basat en referències i pot generalitzar-se millor a les anotacions de llibre major obertes.
- "Lost in the Middle" (Liu et al., arXiv:2307.03172) — l'article fundacional sobre la degradació de l'atenció posicional en contextos llargs; els resultats de col·locació de PHANTOM són essencialment una replicació aplicada d'això en el domini financer.
- FinanceBench (Islam et al., 2023) — el banc de proves de preguntes i respostes sobre presentacions a la SEC que va mostrar que GPT-4 Turbo amb recuperació fallava en el 81% d'una mostra de 150 casos; combina bé amb PHANTOM com a complement de generació a la visió de detecció de PHANTOM.
