Pular para o conteúdo principal

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

A questão à qual sempre retorno ao projetar agentes Beancount é esta: quando os dados do seu livro contábil mudam, você deve realizar o ajuste fino (fine-tuning) do modelo com os novos fatos ou construir um sistema de recuperação? O artigo de Ovadia et al., "Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs" (EMNLP 2024, arXiv:2312.05934), oferece a resposta empírica mais clara que encontrei, e ela vai diretamente contra o hype do ajuste fino.

O artigo

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Oded Ovadia, Menachem Brief, Moshik Mishaeli e Oren Elisha comparam duas abordagens para atualizar o conhecimento de um LLM: pré-treinamento contínuo não supervisionado (o modelo lê novos textos e continua a predição do próximo token) e RAG (o modelo recebe trechos recuperados no momento da consulta). Eles testam três modelos de 7 bilhões de parâmetros — Llama2-7B, Mistral-7B e Orca2-7B — em dois domínios de conhecimento: um subconjunto do MMLU cobrindo anatomia, astronomia, biologia universitária e química (conhecimentos que os modelos provavelmente viram no pré-treinamento) e um conjunto de dados personalizado de eventos atuais com 910 questões de múltipla escolha sobre eventos nos EUA de agosto a novembro de 2023, explicitamente além dos limites de treinamento (cutoffs) dos modelos. O pipeline de RAG utiliza embeddings BGE-large-en sobre um índice FAISS. O ajuste fino executa treinamento de LM causal não supervisionado em blocos da Wikipedia de 256 tokens em 4 GPUs A100.

Ideias principais

  • RAG domina em conhecimentos genuinamente novos: Na tarefa de eventos atuais, o RAG sozinho pontua 0,875 (Mistral) e 0,876 (Orca) contra linhas de base do modelo base de 0,353–0,481. O ajuste fino não supervisionado com paráfrases atinge apenas 0,504–0,511 — o RAG mais do que dobrou o ganho de precisão que o ajuste fino alcançou em fatos além do limite de treinamento.
  • O teto do ajuste fino é o conhecimento existente, não o novo: Mesmo em assuntos do MMLU que os modelos já haviam encontrado durante o pré-treinamento, o ajuste fino produz apenas ganhos modestos; o RAG ainda supera o desempenho em todos os cinco assuntos.
  • Parafrasear ajuda, mas lentamente: Paráfrases geradas pelo GPT-4 de cada bloco de treinamento melhoram os resultados do ajuste fino de forma monotônica — 10 versões superam consistentemente 1 — e os autores sugerem que isso pode tratar parcialmente a "Maldição da Reversão" (Berglund et al., arXiv:2309.12288), onde modelos treinados em "A é B" falham em generalizar para "B é A". Eles são cautelosos ao notar que essa conexão exige mais pesquisas.
  • O esquecimento catastrófico é um custo real: O Llama2 sem aumento de dados mostrou uma degradação significativa da precisão em tarefas aprendidas anteriormente após o ajuste fino em eventos atuais. O RAG evita isso inteiramente.
  • Combinar ambos não ajuda de forma confiável: Ajuste fino + RAG alcançou 0,520–0,830 na condição de eventos atuais, às vezes ficando abaixo do RAG sozinho. O ajuste fino parece interferir na capacidade do modelo de usar o contexto recuperado.

O que se sustenta — e o que não

A descoberta central é crível. Um conjunto de dados de 910 questões com um limite temporal claro é suficiente para confiar na direção do resultado: o ajuste fino não supervisionado é um veículo pobre para injetar fatos genuinamente novos. O design da avaliação é limpo e as magnitudes dos efeitos são grandes.

Os pontos cegos também existem. Todos os três modelos testados têm 7 bilhões de parâmetros — não sabemos se a lacuna do ajuste fino diminui ou aumenta com modelos de escala de fronteira. Mais importante, o método de ajuste fino é estritamente a predição de próximo token não supervisionada. Sem LoRA, sem ajuste de instrução, sem pares de QA supervisionados. O RAFT (Zhang et al., arXiv:2403.10131) e abordagens similares de adaptação de domínio supervisionada são linhas de base mais competitivas com as quais este artigo não se envolve. A conclusão "o ajuste fino perde" é, na verdade, "o ajuste fino não supervisionado perde", o que é uma afirmação mais restrita.

A implementação do RAG também é modesta: recuperação densa básica com FAISS e BGE-large-en, sem re-ranqueamento ou expansão de consulta. Uma nota no apêndice reconhece que o K ideal varia substancialmente entre modelos e tarefas — escolher o número errado de passagens recuperadas prejudica significativamente o desempenho. Em produção, o ajuste de K por domínio é um custo operacional não trivial.

Uma afirmação que eu contestaria: os autores enquadram a descoberta de que a paráfrase ajuda no ajuste fino como algo que potencialmente ameniza a Maldição da Reversão, mas a evidência é indireta. A melhoria monotônica com a contagem de paráfrases poderia apenas refletir os benefícios padrão do aumento de dados, em vez de qualquer correção estrutural na generalização bidirecional. A conexão é interessante, mas não comprovada.

Por que isso importa para a IA financeira

Este é um dos artigos mais diretamente acionáveis para a agenda do Bean Labs. Um agente Beancount não pode ser retreinado toda vez que uma transação é adicionada, uma regra muda ou um novo ano fiscal começa. O artigo apoia fortemente o tratamento do livro contábil como um corpus de recuperação, em vez de material para ajuste fino: os ganhos factuais do ajuste fino são modestos, o risco de esquecimento catastrófico é real e o custo operacional do retreinamento excede em muito o custo da reindexação.

A descoberta sobre paráfrases aponta para algo útil mesmo se deixarmos o ajuste fino de lado. Se uma regra contábil específica de um domínio precisa ser incorporada profundamente no comportamento de um modelo — não apenas recuperada, mas seguida de forma confiável — expressá-la de múltiplas formas (restrição, verificação de validação, exemplo prático de violação) é provavelmente mais robusto do que uma única declaração canônica. É assim que a educação contábil funciona e é consistente com a forma como os estudos de seguimento de regras da IA Constitucional enquadram a cobertura de regras.

O resultado do esquecimento catastrófico é o aviso prático mais claro: a adaptação de domínio não supervisionada em dados de livros contábeis pode degradar as capacidades de raciocínio geral necessárias para detecção de anomalias e resposta a consultas. A recuperação evita isso ao custo de um índice e de um recuperador — uma troca que vale a pena fazer.

O que ler a seguir

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — o artigo que Ovadia et al. invocam; explica por que os LLMs falham na implicação bidirecional a partir dos dados de treinamento e define os limites fundamentais do ajuste fino para injeção factual.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — uma receita de ajuste fino supervisionado projetada para funcionar com o RAG em vez de substituí-lo; uma linha de base de ajuste fino mais competitiva do que a abordagem não supervisionada testada aqui.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — estende a comparação para o conhecimento de entidades de "cauda longa", onde o RAG novamente domina, e propõe o Stimulus RAG como uma alternativa leve.