Pular para o conteúdo principal

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

O PHANTOM (NeurIPS 2025) faz a pergunta que eu mais queria ver respondida antes de confiar em um LLM para manipular um livro-razão do Beancount: um modelo consegue realmente identificar quando está inventando informações sobre um documento financeiro? Os resultados não são tranquilizadores, e as escolhas metodológicas valem uma análise cuidadosa.

O artigo

2026-04-19-phantom-hallucination-detection-financial-long-context%3A%20Medindo%20a%20Detec%C3%A7%C3%A3o%20de%20Alucina%C3%A7%C3%B5es%20de%20LLMs%20em%20Documentos%20Financeiros)

Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta e Bing Xiang — a maioria afiliada à IBM Research — construíram o PHANTOM especificamente para preencher uma lacuna que os benchmarks de alucinação genéricos deixam aberta. Os benchmarks de alucinação padrão testam contextos curtos e limpos com consultas bem formadas. Os documentos financeiros são o oposto: um único arquivamento 10-K rotineiramente excede 100.000 tokens, os números são precisos até o centavo e a linguagem é densa com termos específicos do domínio que possuem significados não óbvios (EBITDA, receita diferida, impairment de goodwill). A principal contribuição é um conjunto de dados de tripletos de consulta-resposta-documento construído a partir de arquivamentos reais da SEC — relatórios anuais 10-K, arquivamentos de fundos mútuos 497K e procurações DEF 14A (proxy statements) — onde cada resposta é correta ou deliberadamente alucinada, validada por anotadores humanos. O benchmark então expande esse conjunto semente para testar comprimentos de contexto de ~500 tokens até 30.000 tokens, e varia sistematicamente onde a informação relevante aparece: no início, meio ou fim do contexto.

Ideias-chave

  • A tarefa é a detecção de alucinação, não a geração de alucinação: dado um trecho de documento e uma resposta, classificar se a resposta é fundamentada ou fabricada. Esta é uma tarefa mais simples do que gerar uma resposta fundamentada — no entanto, os modelos ainda enfrentam grandes dificuldades.
  • O comprimento do contexto importa muito. O conjunto semente utiliza trechos de ~500 tokens. À medida que o contexto cresce para 10K, 20K e 30K tokens, o desempenho cai significativamente em todos os modelos — consistente com a descoberta "Lost in the Middle" (arXiv:2307.03172) de que os LLMs degradam quando a informação relevante está enterrada no meio de um contexto longo.
  • O Llama-3.3-70B-Instruct atinge a pontuação F1 mais alta de 0,916 no conjunto de dados semente — mas os autores sinalizam que este modelo também foi usado para gerar o conjunto semente, o que é um problema de circularidade que infla o número.
  • O Qwen3-30B-A3B-Thinking atinge F1 = 0,882, superando todos os modelos de código fechado testados. Seu equivalente Instruct sem "thinking" pontua 0,848, sugerindo que a computação em tempo de teste (raciocínio chain-of-thought) adiciona valor real aqui.
  • Modelos pequenos (Qwen-2.5-7B) pontuam apenas um pouco acima do acaso (random guessing) no benchmark. A detecção de alucinações em documentos financeiros longos parece exigir uma capacidade substancial do modelo.
  • O ajuste fino (fine-tuning) de modelos de código aberto em dados do PHANTOM melhora substancialmente suas taxas de detecção — o artigo identifica isso como a direção mais promissora para profissionais da área.

O que se sustenta — e o que não

A metodologia de construção é cuidadosa. A anotação humana no conjunto semente, seguida pela expansão sistemática através de comprimentos de contexto e posições de colocação, dá ao PHANTOM uma estrutura que falta à maioria dos conjuntos de dados de NLP financeiro. A variação de posicionamento, em particular, é útil: ela permite medir se a falha de um modelo é sobre o comprimento total do contexto ou sobre o padrão específico de atenção em forma de U (forte no início e no fim, fraco no meio) que tem sido documentado em muitas arquiteturas de LLM.

A circularidade do Llama-3.3-70B é um problema real e os autores merecem crédito por sinalizá-lo — mas isso também significa que o resultado superior do benchmark é difícil de interpretar. Para os profissionais, os números mais úteis são provavelmente os resultados do Qwen3 e do Phi-4, onde não existe tal contaminação.

O que eu gostaria que o artigo fornecesse: a curva de degradação real conforme o comprimento do contexto cresce de 500 para 30.000 tokens. O artigo estabelece que a degradação acontece e que o posicionamento importa, mas não consegui extrair as quedas específicas em pontos percentuais dos materiais disponíveis. Essa granularidade é importante para decidir onde definir o tamanho de um chunk de recuperação em um sistema de produção. Também vale notar que o benchmark testa apenas se um modelo detecta uma alucinação em uma resposta apresentada — ele não testa se o modelo irá alucinar quando solicitado a produzir uma resposta do zero. Esses são modos de falha relacionados, mas diferentes, e um sistema que pontua bem na detecção ainda pode falhar feio na geração.

Finalmente, o conjunto de dados cobre três tipos de arquivamentos da SEC. Essa é uma fatia significativa do espaço de documentos financeiros, mas deixa de fora transcrições de teleconferências de resultados, relatórios de auditoria, cláusulas restritivas (covenants) em contratos de empréstimo e o tipo de descrições de lançamentos contábeis ad-hoc que preenchem um livro-razão do Beancount. A generalização para esses formatos é uma questão aberta.

Por que isso importa para a IA nas finanças

A alucinação é o problema de confiança para cada agente de contabilidade autônomo que eu consigo imaginar construir sobre o Beancount. O cenário de gravação (write-back) é o pior caso: um agente que lê um extrato bancário, classifica uma transação e posta um lançamento contábil. Se ele alucinar o beneficiário, o valor ou o código da conta, o livro-razão estará silenciosamente incorreto. O PHANTOM é o primeiro benchmark que vi que tenta medir se os modelos conseguem capturar essa classe de erro em condições realistas de documentos.

A descoberta de que modelos pequenos (7B) apresentam desempenho próximo ao acaso na detecção de alucinações é diretamente relevante para o Bean Labs: se estivermos executando um agente no dispositivo ou de baixa latência, não podemos confiar em um modelo 7B para autoverificar sua própria saída. Precisamos de um modelo verificador maior, uma verificação de recuperação externa ou um formato de saída restrito que torne as alucinações estruturalmente impossíveis (por exemplo, forçando o modelo a citar um número de linha do documento de origem antes de postar um lançamento). O resultado do ajuste fino é encorajador: a adaptação específica do domínio em dados no estilo PHANTOM parece recuperar grande parte da capacidade de detecção, mesmo para modelos menores, o que sugere que um verificador ajustado poderia ser um componente prático em um pipeline de gravação.

O que ler a seguir

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — detecção de alucinação baseada em amostragem sem um documento de referência; complementa a abordagem fundamentada em referência do PHANTOM e pode generalizar melhor para anotações de livro-razão abertas.
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — o artigo fundamental sobre a degradação da atenção posicional em contextos longos; os resultados de posicionamento do PHANTOM são essencialmente uma replicação aplicada disso no domínio financeiro.
  • FinanceBench (Islam et al., 2023) — o benchmark de QA sobre arquivamentos da SEC que mostrou o GPT-4 Turbo com recuperação falhando em 81% de uma amostra de 150 casos; combina bem com o PHANTOM como um complemento do lado da geração para a visão do lado da detecção do PHANTOM.