HippoRAG: Memória de Longo Prazo para LLMs Inspirada na Neurobiologia
O HippoRAG, publicado no NeurIPS 2024, é um framework de geração aumentada por recuperação (RAG) que utiliza um grafo de conhecimento e o PageRank Personalizado para imitar como o hipocampo humano indexa memórias de longo prazo. Estou lendo este artigo porque o problema central que ele aborda — recuperar informações distribuídas em muitos documentos e conectadas apenas por cadeias de fatos — é exatamente o problema que um agente Beancount enfrenta ao responder perguntas sobre históricos de livros contábeis de vários anos.
O artigo
Jiménez Gutiérrez, Shu, Gu, Yasunaga e Su identificam um modo de falha estrutural no RAG padrão: se os trechos que respondem a uma pergunta não compartilham nenhum termo com a própria consulta, a recuperação baseada em embeddings simplesmente não os encontrará. Eles chamam isso de problema de busca de caminhos (path-finding) — você precisa percorrer uma cadeia de entidades, não apenas comparar uma string de consulta com um vetor de documento.
A solução deles, o HippoRAG, espelha a teoria de indexação hipocampal da memória humana. Um LLM (GPT-3.5-turbo) extrai triplas de extração aberta de informações (OpenIE) de cada trecho offline, construindo um grafo de conhecimento sem esquema de nós de frases nominais e arestas relacionais. Um codificador de recuperação densa adiciona arestas de sinonímia entre nós semanticamente semelhantes (similaridade de cosseno > 0,8). No momento da consulta, o sistema extrai entidades nomeadas da consulta, inicia uma propagação de PageRank Personalizado (PPR) a partir desses nós e classifica os trechos agregando as probabilidades de PPR entre seus nós membros. Um peso de "especificidade do nó" — o inverso do número de passagens em que um nó aparece — funciona como um IDF nativo do grafo.
Ideias principais
- IDF nativo do grafo: dar mais peso aos nós raros na propagação do PPR é o que faz o sistema funcionar. Sem isso, entidades comuns como "empresa" ou "o" dominariam a recuperação. As ablações mostram que remover a especificidade do nó derruba o Recall@2 do MuSiQue de 40,9 para 37,6.
- Etapa única supera a iterativa: O HippoRAG sem iteração alcança um recall comparável ao IRCoT (que executa várias rodadas de recuperação intercaladas com raciocínio de cadeia de pensamento), sendo 10 a 30 vezes mais barato e 6 a 13 vezes mais rápido no momento da consulta.
- Ganhos massivos no 2WikiMultiHopQA: O Recall@5 melhora de 68,2 (ColBERTv2) para 89,1 (HippoRAG). A lacuna reflete exatamente a estrutura de busca de caminhos das perguntas desse benchmark.
- Ganhos modestos no MuSiQue: O Recall@5 melhora apenas de 49,2 para 51,9. O MuSiQue é mais difícil; muitas perguntas exigem um raciocínio que a topologia do grafo não consegue capturar totalmente.
- Regressão no HotpotQA: O HippoRAG tem desempenho inferior ao ColBERTv2 no HotpotQA (Recall@2: 60,5 vs. 64,7). As perguntas do HotpotQA são geralmente resolvíveis a partir de dois trechos intimamente relacionados, o que favorece os pontos fortes da recuperação por embeddings em vez da travessia de grafo.
- A qualidade do OpenIE é o gargalo: as ablações mostram que o uso do Llama-3-70B para extração piorou o desempenho devido a erros de formatação, enquanto o Llama-3-8B foi competitivo com o GPT-3.5-turbo. A extração pronta para uso é frágil.
O que se sustenta — e o que não se sustenta
O resultado é real: no 2WikiMultiHopQA, que é projetado especificamente em torno de cadeias de múltiplos saltos (multi-hop), a travessia de grafo supera a recuperação densa por uma margem ampla. A abordagem PPR é elegante — iniciar a propagação nas entidades da consulta e deixar o grafo preencher a vizinhança é uma maneira fundamentada de lidar com o desajuste distribucional entre a consulta e as passagens de suporte.
O que considero menos convincente é o enquadramento neurobiológico. O artigo estabelece uma analogia entre o PageRank e a atividade hipocampal CA3, citando um estudo de ciência cognitiva que encontrou correlação entre as probabilidades de recordação de palavras humanas e as pontuações do PageRank. Essa é uma observação correlacional da psicolinguística, não uma derivação. O PPR não foi projetado a partir da fisiologia hipocampal — chamar isso de "inspirado na neurobiologia" é mais marketing do que mecanismo.
A alegação de eficiência também merece escrutínio. O HippoRAG de etapa única é 10 a 30 vezes mais barato online do que o IRCoT — mas o custo de indexação offline (executar o GPT-3.5-turbo para extrair triplas OpenIE de cada documento) é concentrado no início e substancial. Para um corpus que muda com frequência, esse custo é pago novamente nas atualizações. O artigo não informa o custo total de indexação.
Finalmente, os benchmarks são de escala média: 6 mil a 11 mil passagens e menos de 100 mil nós de grafo. Os autores listam explicitamente a escalabilidade como uma questão em aberto. Se o PPR se sustenta em centenas de milhares de lançamentos contábeis abrangendo décadas ainda não foi validado.
Por que isso importa para a IA financeira
Um livro contábil Beancount é uma cadeia de fatos: hierarquias de contas, referências de transações, referências cruzadas de regras, alocações de orçamento. Uma pergunta como "quais despesas de 2022 se enquadram na mesma categoria de orçamento que a fatura #INV-2019-0042?" requer percorrer o grafo de contas, transações e categorias — exatamente a tarefa de busca de caminhos onde o RAG padrão falha.
O design de indexação do HippoRAG mapeia naturalmente: extrair triplas de entidade-relação dos lançamentos do livro contábil (conta, valor, contraparte, regra), construir um grafo e, em seguida, executar o PPR iniciado nas entidades da consulta. O peso de especificidade do nó naturalmente reduziria o peso de nós genéricos como "despesas" ou "ativos" e aumentaria o peso de nomes de fornecedores raros ou códigos de conta, que é precisamente o que se deseja.
O bloqueador prático para o Beancount é o custo de atualização incremental. Cada nova transação adiciona nós e arestas; reexecutar a extração OpenIE em novos lançamentos é viável, mas a complexidade do PPR escala com o tamanho do grafo. A sequência HippoRAG 2 (arXiv:2502.14802) alega uma melhoria adicional de 7% em tarefas associativas, mas a questão da escalabilidade permanece aberta. Para um livro contábil com milhões de transações, este é o problema de engenharia que precisaria ser resolvido antes de implementar essa abordagem.
O que ler a seguir
- GraphRAG (Edge et al., arXiv:2404.16130) — A alternativa da Microsoft que resume comunidades de grafos em vez de executar o PPR; melhor para perguntas temáticas amplas e um contraste útil à abordagem de cadeia de entidades do HippoRAG.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — Organização recursiva de árvore abstrativa para RAG; o HippoRAG o supera em benchmarks de múltiplos saltos, mas o RAPTOR pode lidar melhor com tarefas de sumarização de longo alcance onde a travessia de grafo não é o enquadramento correto.
- IRCoT (Trivedi et al., arXiv:2212.10509) — A linha de base de recuperação iterativa que o HippoRAG afirma igualar com custo menor; vale a leitura para entender com o que a alegação de eficiência de 10 a 30 vezes está sendo comparada.
