Pular para o conteúdo principal

Fusion-in-Decoder: Como a Recuperação de Múltiplas Passagens Melhora o QA Generativo

· 6 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

A geração aumentada por recuperação (RAG) depende inteiramente da capacidade do gerador em sintetizar evidências espalhadas por múltiplos documentos. O artigo da EACL 2021 de Izacard e Grave, "Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering", propõe uma correção arquitetural deceptivamente simples — codificar as passagens de forma independente e fundi-las todas no decodificador — que supera o framework RAG, então dominante, por uma margem significativa. Estou lendo-o agora porque o princípio de design mapeia-se diretamente para o QA de livros contábeis: antes de decidir como recuperar entradas em agentes Beancount, vale a pena entender qual estratégia de fusão realmente funciona.

O artigo

2026-05-26-fusion-in-decoder-passage-retrieval-generative-qa

O RAG original de Lewis et al. (arXiv:2005.11401) une um recuperador denso com um gerador BART, mas força o gerador a se condicionar a uma única passagem recuperada por vez, marginalizando as passagens por sequência (RAG-Sequence) ou por token (RAG-Token). Izacard e Grave identificaram isso como a restrição limitante: um modelo que só consegue ver uma passagem de cada vez não consegue triangular facilmente evidências que estão dispersas entre documentos.

Sua solução FiD (Fusion-in-Decoder) é elegante. Cada passagem recuperada é concatenada com a pergunta e, em seguida, codificada independentemente pelo codificador do T5. O codificador roda uma vez por passagem — de forma totalmente paralelizável. O decodificador então realiza a atenção cruzada (cross-attention) sobre a concatenação de todas as representações de passagens simultaneamente. A complexidade do codificador escala linearmente com o número de passagens; o decodificador, crucialmente, pode atentar-se às fronteiras entre as passagens durante cada etapa de geração. O artigo utiliza o T5-base e o T5-large como backbone do gerador.

Ideias principais

  • O FiD-large com 100 passagens recuperadas atinge 51,4% de correspondência exata (exact match) no Natural Questions e 67,6% no TriviaQA open, comparado aos 47,5% e 56,1% do RAG-Sequence, respectivamente — ganhos de aproximadamente 4 e 11 pontos.
  • O desempenho no Natural Questions escala de forma monotônica com a contagem de passagens: 37,3% com 1 passagem, 48,8% com 10, 50,8% com 50, 51,4% com 100. O retorno marginal diminui, mas nunca se inverte.
  • O TriviaQA melhora 6% e o Natural Questions 3,5% ao escalar de 10 para 100 passagens — evidência de que o decodificador está genuinamente agregando, e não apenas escolhendo a melhor passagem.
  • A etapa de codificação é barata para paralelizar: cada par (pergunta, passagem) é processado de forma independente, de modo que o tempo de processamento real escala sublinearmente com o hardware.
  • O FiD-base com 770 milhões de parâmetros supera o T5-11B em modo closed-book (44,1% vs. 36,6% no NQ), demonstrando que a recuperação permite que modelos menores tenham um desempenho muito acima do esperado para seu tamanho.

O que se sustenta — e o que não

O resultado principal é robusto e foi replicado extensivamente. O insight arquitetural — codificação independente, decodificação conjunta — é genuinamente limpo: evita a explosão quadrática da autoatenção que resultaria da concatenação ingênua de todas as passagens antes do codificador, enquanto ainda fornece ao decodificador um contexto global sobre todas as evidências recuperadas.

A limitação que o artigo mal reconhece é que a atenção cruzada do decodificador é o gargalo no momento da inferência. A atenção cruzada deve carregar todos os pares de chave-valor do codificador por camada do decodificador por etapa de geração, e esses tensores de chave-valor crescem linearmente com a contagem de passagens. Um acompanhamento de 2023, FiDO (arXiv:2212.08153), mostrou que substituir a atenção multi-head por atenção multi-query e podar camadas de atenção cruzada gera uma aceleração de inferência de 7x com perda mínima de precisão — o que implica que o decodificador FiD original é substancialmente superdimensionado para o que a tarefa exige.

Há também uma lacuna de calibração que o artigo não explora: ele relata a correspondência exata, o que recompensa sistemas que por acaso produzem a string de resposta canônica precisa. Para tarefas de síntese factual — resumir descobertas em múltiplas passagens em vez de extrair um trecho — a correspondência exata subestima os erros e superestima a confiança. Em contextos financeiros, onde um número errado em uma frase de outra forma correta é uma falha grave, a correspondência exata é a métrica errada.

Por que isso importa para a IA financeira

O QA de livros contábeis do Beancount é, por natureza, um problema de recuperação de múltiplas passagens. Uma pergunta como "Quanto gastei com viagens no 3º trimestre em todas as contas?" requer a síntese de dezenas de entradas de transações de diferentes datas, contas e tipos de commodities. A descoberta central do FiD — que os modelos generativos podem agregar informações de muitas passagens recuperadas e que o desempenho melhora com mais contexto — é diretamente encorajadora.

A implicação prática de design é concreta: ao construir uma camada de QA para o Beancount, recuperar mais entradas candidatas (50–100 em vez das 5 principais habituais) e dar ao gerador acesso conjunto a todas elas é provavelmente melhor do que confiar na reclassificação (re-ranking) para escolher uma única resposta correta. A arquitetura FiD também se mapeia de forma limpa à estrutura do livro contábil: cada entrada de transação pode ser codificada independentemente (barato, paralelizável) antes que o decodificador sintetize todas elas.

A preocupação com o custo de inferência é real para implantações em produção, mas o acompanhamento do FiDO mostra que isso é resolvível no nível da arquitetura sem penalidade de precisão. A limitação mais urgente para agentes financeiros é que o FiD foi projetado para QA factóide com saídas generativas curtas. A análise de livros contábeis frequentemente exige aritmética de múltiplas etapas — somar quantias, calcular índices — e o gerador do FiD não roteia isso inerentemente para um interpretador. Combinar a fusão no estilo FiD com uma cabeça de geração de código no estilo PAL é o próximo passo natural para a precisão numérica.

O que ler a seguir

  • FiDO (arXiv:2212.08153, ACL Findings 2023) — a atenção multi-query e a poda da atenção cruzada recuperam a precisão do FiD com uma inferência 7x mais rápida; essencial antes de implantar o FiD em produção.
  • REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) — Guu et al. mostram como incorporar a recuperação durante o pré-treinamento em vez de apenas na inferência; fornece a motivação upstream sobre a qual o FiD se baseia.
  • Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) — a própria extensão de Izacard et al. do FiD para contextos de few-shot com treinamento conjunto de recuperador e leitor, a síntese mais completa desta linha de trabalho.