PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros
PHANTOM (NeurIPS 2025) plantea la pregunta que más quería ver respondida antes de confiar en un LLM para tocar un libro mayor de Beancount: ¿puede un modelo realmente saber cuándo está inventando cosas sobre un documento financiero? Los resultados no son alentadores, y las elecciones metodológicas merecen ser examinadas cuidadosamente.
El artículo
%3A%20Medici%C3%B3n%20de%20la%20detecci%C3%B3n%20de%20alucinaciones%20de%20LLM%20en%20documentos%20financieros)
Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta y Bing Xiang —la mayoría afiliados a IBM Research— construyeron PHANTOM específicamente para llenar un vacío que los benchmarks de alucinaciones genéricos dejan abierto. Los benchmarks estándar de alucinaciones prueban contextos cortos y limpios con consultas bien formadas. Los documentos financieros son lo opuesto: una sola presentación 10-K habitualmente supera los 100.000 tokens, los números son precisos hasta el centavo y el lenguaje es denso con términos específicos del dominio que tienen significados no evidentes (EBITDA, ingresos diferidos, deterioro del fondo de comercio). La contribución principal es un conjunto de datos de tripletes consulta-respuesta-documento construidos a partir de presentaciones reales ante la SEC —informes anuales 10-K, presentaciones de fondos mutuos 497K y declaraciones de representación DEF 14A— donde cada respuesta es correcta o deliberadamente alucinada, validada por anotadores humanos. El benchmark luego amplía ese conjunto semilla para probar longitudes de contexto desde ~500 tokens hasta 30.000 tokens, y varía sistemáticamente dónde aparece la información relevante: al principio, en el medio o al final del contexto.
Ideas clave
- La tarea es detección de alucinaciones, no generación de alucinaciones: dado un fragmento de documento y una respuesta, clasificar si la respuesta está fundamentada o fabricada. Esta es una tarea más sencilla que generar una respuesta fundamentada; sin embargo, los modelos siguen teniendo grandes dificultades.
- La longitud del contexto importa mucho. El conjunto semilla utiliza fragmentos de ~500 tokens. A medida que el contexto crece a 10K, 20K y 30K tokens, el rendimiento cae significativamente en todos los modelos, lo que es consistente con el hallazgo de "Perdido en el medio" (arXiv:2307.03172) de que los LLM se degradan cuando la información relevante está enterrada en medio de un contexto largo.
- Llama-3.3-70B-Instruct logra la puntuación F1 más alta de 0,916 en el conjunto de datos semilla, pero los autores advierten que este modelo también se utilizó para generar el conjunto de datos semilla, lo cual es un problema de circularidad que infla la cifra.
- Qwen3-30B-A3B-Thinking logra un F1 = 0,882, superando a todos los modelos de código cerrado probados. Su hermano Instruct (sin razonamiento) obtiene un 0,848, lo que sugiere que el cómputo en tiempo de inferencia (razonamiento de cadena de pensamiento) añade valor real aquí.
- Los modelos pequeños (Qwen-2.5-7B) obtienen una puntuación apenas por encima del azar en el benchmark. La detección de alucinaciones sobre documentos financieros largos parece requerir una capacidad de modelo sustancial.
- El ajuste fino (fine-tuning) de modelos de código abierto con datos de PHANTOM mejora sustancialmente sus tasas de detección; el artículo identifica esto como la dirección más prometedora para los profesionales.
Qué se sostiene y qué no
La metodología de construcción es cuidadosa. La anotación humana en el conjunto semilla, seguida de una expansión sistemática a través de las longitudes de contexto y las posiciones de colocación, le da a PHANTOM una estructura de la que carecen la mayoría de los conjuntos de datos de procesamiento de lenguaje natural (NLP) financiero. La variación de la colocación en particular es útil: permite medir si el fallo de un modelo se debe a la longitud total del contexto o al patrón de atención específico en forma de U (fuerte al principio y al final, débil en el medio) que se ha documentado en muchas arquitecturas de LLM.
La circularidad de Llama-3.3-70B es un problema real y los autores merecen crédito por señalarlo, pero también significa que el resultado principal del benchmark es ininterpretable. Para los profesionales, las cifras más útiles son probablemente los resultados de Qwen3 y Phi-4, donde no existe tal contaminación.
Lo que desearía que el artículo proporcionara: la curva de degradación real a medida que la longitud del contexto crece de 500 a 30.000 tokens. El artículo establece que la degradación ocurre y que la colocación importa, pero no pude extraer las caídas específicas en puntos porcentuales de los materiales disponibles. Esa granularidad es importante para decidir dónde establecer el tamaño de un fragmento de recuperación (retrieval chunk size) en un sistema de producción. También vale la pena señalar que el benchmark solo prueba si un modelo detecta una alucinación en una respuesta presentada; no prueba si el modelo alucinará cuando se le pida que produzca una respuesta desde cero. Esos son modos de fallo relacionados pero diferentes, y un sistema que puntúa bien en detección aún puede fallar gravemente en generación.
Finalmente, el conjunto de datos cubre tres tipos de presentaciones de la SEC. Esa es una parte significativa del espacio de documentos financieros, pero deja fuera las transcripciones de llamadas de resultados, los informes de auditoría, las cláusulas de convenios en acuerdos de préstamo y el tipo de descripciones de asientos contables ad-hoc que llenan un libro mayor de Beancount. La generalización a esos formatos es una pregunta abierta.
Por qué esto es importante para la IA financiera
La alucinación es el problema de confianza para cada agente de contabilidad autónomo que puedo imaginar construir sobre Beancount. El escenario de escritura (write-back) es el peor caso: un agente que lee un extracto bancario, clasifica una transacción y publica un asiento contable. Si alucina el beneficiario, el monto o el código de cuenta, el libro mayor estará silenciosamente equivocado. PHANTOM es el primer benchmark que he visto que intenta medir si los modelos pueden detectar esta clase de error en condiciones de documentos realistas.
El hallazgo de que los modelos pequeños (7B) rinden cerca del azar en la detección de alucinaciones es directamente relevante para Bean Labs: si estamos ejecutando un agente en el dispositivo o de baja latencia, no podemos confiar en un modelo 7B para autoverificar su propia salida. Necesitamos un modelo verificador más grande, una verificación de recuperación externa o un formato de salida restringido que haga que las alucinaciones sean estructuralmente imposibles (por ejemplo, obligando al modelo a citar un número de línea del documento de origen antes de publicar una entrada). El resultado del ajuste fino es alentador: la adaptación específica del dominio sobre datos al estilo PHANTOM parece recuperar gran parte de la capacidad de detección incluso para modelos más pequeños, lo que sugiere que un verificador ajustado podría ser un componente práctico en un flujo de trabajo de escritura.
Qué leer a continuación
- SelfCheckGPT (Manakul et al., arXiv:2303.08896): detección de alucinaciones basada en muestras sin un documento de referencia; complementa el enfoque fundamentado en referencias de PHANTOM y puede generalizarse mejor a las anotaciones de libros contables abiertos.
- "Lost in the Middle" (Liu et al., arXiv:2307.03172): el artículo fundacional sobre la degradación de la atención posicional en contextos largos; los resultados de colocación de PHANTOM son esencialmente una replicación aplicada de esto en el dominio financiero.
- FinanceBench (Islam et al., 2023): el benchmark de QA sobre presentaciones de la SEC que mostró a GPT-4 Turbo con recuperación fallando en el 81% de una muestra de 150 casos; combina bien con PHANTOM como complemento del lado de generación a la vista del lado de detección de PHANTOM.
