HippoRAG : Une mémoire à long terme pour les LLM inspirée par la neurobiologie
HippoRAG, publié lors de NeurIPS 2024, est un framework de génération augmentée par récupération (RAG) qui utilise un graphe de connaissances et le PageRank personnalisé pour imiter la façon dont l'hippocampe humain indexe les souvenirs à long terme. Je le lis parce que le problème central qu'il aborde — la récupération d'informations réparties dans de nombreux documents et connectées uniquement par des chaînes de faits — est exactement le problème auquel est confronté un agent Beancount lorsqu'il répond à des questions sur des historiques de registres pluriannuels.
L'article
Jiménez Gutiérrez, Shu, Gu, Yasunaga et Su identifient un mode de défaillance structurel dans le RAG standard : si les passages qui répondent à une question ne partagent aucun terme avec la requête elle-même, la récupération basée sur les plongements (embeddings) ne les trouvera tout simplement pas. Ils appellent cela le problème de recherche de chemin (path-finding) — il faut traverser une chaîne d'entités, et pas seulement faire correspondre une chaîne de requête à un vecteur de document.
Leur solution, HippoRAG, reflète la théorie de l'indexation hippocampique de la mémoire humaine. Un LLM (GPT-3.5-turbo) extrait des triplets d'extraction d'information ouverte (OpenIE) de chaque passage hors ligne, construisant un graphe de connaissances sans schéma composé de nœuds de syntagmes nominaux et d'arêtes relationnelles. Un encodeur de récupération dense ajoute des arêtes de synonymie entre les nœuds sémantiquement similaires (similarité cosinus > 0,8). Au moment de la requête, le système extrait les entités nommées de la requête, initialise une propagation de PageRank personnalisé (PPR) à partir de ces nœuds, et classe les passages en agrégeant les probabilités PPR à travers leurs nœuds membres. Un poids de « spécificité de nœud » — l'inverse du nombre de passages dans lesquels un nœud apparaît — fonctionne comme un IDF natif au graphe.
Idées clés
- IDF natif au graphe : pondérer plus lourdement les nœuds rares dans la propagation PPR est l'intuition qui fait fonctionner le système. Sans cela, les entités communes comme « entreprise » ou « le » domineraient la récupération. Les ablations montrent que la suppression de la spécificité des nœuds fait chuter le Recall@2 de MuSiQue de 40,9 à 37,6.
- L'étape unique bat l'itératif : HippoRAG sans itération atteint un rappel comparable à IRCoT (qui exécute plusieurs cycles de récupération entrelacés avec un raisonnement par chaîne de pensée), tout en étant 10 à 30 fois moins cher et 6 à 13 fois plus rapide au moment de la requête.
- Gains massifs sur 2WikiMultiHopQA : le Recall@5 passe de 68,2 (ColBERTv2) à 89,1 (HippoRAG). L'écart reflète exactement la structure de recherche de chemin des questions de ce benchmark.
- Gains modestes sur MuSiQue : le Recall@5 ne passe que de 49,2 à 51,9. MuSiQue est plus difficile ; de nombreuses questions nécessitent un raisonnement que la topologie du graphe ne peut pas entièrement capturer.
- Régression sur HotpotQA : HippoRAG est moins performant que ColBERTv2 sur HotpotQA (Recall@2 : 60,5 contre 64,7). Les questions de HotpotQA sont généralement résolubles à partir de deux passages étroitement liés, ce qui favorise les forces de la récupération par plongements plutôt que la traversée de graphe.
- La qualité de l'OpenIE est le goulot d'étranglement : les ablations montrent que l'utilisation de Llama-3-70B pour l'extraction a dégradé les performances en raison d'erreurs de formatage, tandis que Llama-3-8B était compétitif avec GPT-3.5-turbo. L'extraction prête à l'emploi est fragile.
Ce qui tient la route — et ce qui ne la tient pas
Le résultat est réel : sur 2WikiMultiHopQA, qui est spécifiquement conçu autour de chaînes multi-sauts, la traversée de graphe surpasse largement la récupération dense. L'approche PPR est élégante — initialiser la propagation au niveau des entités de la requête et laisser le graphe remplir le voisinage est une manière rigoureuse de gérer le décalage de distribution entre la requête et les passages de support.
Ce que je trouve moins convaincant, c'est le cadre neurobiologique. L'article établit une analogie entre le PageRank et l'activité hippocampique CA3, citant une étude de sciences cognitives qui a trouvé une corrélation entre les probabilités de rappel de mots chez l'humain et les scores PageRank. C'est une observation corrélative issue de la psycholinguistique, pas une dérivation. Le PPR n'a pas été conçu à partir de la physiologie hippocampique — appeler cela « inspiré par la neurobiologie » relève plus du marketing que du mécanisme.
L'affirmation sur l'efficacité mérite également d'être examinée. HippoRAG en une seule étape est 10 à 30 fois moins cher en ligne qu'IRCoT — mais le coût d'indexation hors ligne (exécution de GPT-3.5-turbo pour extraire les triplets OpenIE de chaque document) est initial et substantiel. Pour un corpus qui change fréquemment, ce coût est payé à nouveau lors des mises à jour. L'article ne mentionne pas le coût total d'indexation.
Enfin, les benchmarks sont à échelle moyenne : 6 000 à 11 000 passages et moins de 100 000 nœuds de graphe. Les auteurs listent explicitement l'extensibilité comme une question ouverte. Savoir si le PPR tient la route sur des centaines de milliers d'écritures comptables s'étendant sur des décennies n'est pas validé.
Pourquoi c'est important pour l'IA financière
Un registre Beancount est une chaîne de faits : hiérarchies de comptes, références de transactions, références croisées de règles, allocations budgétaires. Une question comme « quelles dépenses de 2022 relèvent de la même catégorie budgétaire que la facture #INV-2019-0042 ? » nécessite de traverser le graphe des comptes, des transactions et des catégories — exactement la tâche de recherche de chemin où le RAG standard échoue.
La conception de l'indexation de HippoRAG s'adapte naturellement : extraire des triplets entité-relation des écritures du registre (compte, montant, contrepartie, règle), construire un graphe, puis exécuter le PPR initialisé sur les entités de la requête. La pondération de la spécificité des nœuds dévaloriserait naturellement les nœuds génériques comme « dépenses » ou « actifs » et valoriserait les noms de fournisseurs rares ou les codes de compte, ce qui est précisément ce que l'on souhaite.
Le bloqueur pratique pour Beancount est le coût de mise à jour incrémentielle. Chaque nouvelle transaction ajoute des nœuds et des arêtes ; réexécuter l'extraction OpenIE sur de nouvelles entrées est gérable, mais la complexité du PPR évolue avec la taille du graphe. La suite HippoRAG 2 (arXiv:2502.14802) revendique une amélioration supplémentaire de 7 % dans les tâches associatives, mais la question de l'extensibilité reste ouverte. Pour un registre contenant des millions de transactions, c'est le problème d'ingénierie qui devrait être résolu avant de déployer cette approche.
Lectures complémentaires
- GraphRAG (Edge et al., arXiv:2404.16130) — l'alternative de Microsoft qui résume les communautés de graphes plutôt que d'exécuter le PPR ; meilleur pour les questions thématiques larges, et un contraste utile à l'approche de chaîne d'entités de HippoRAG.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — organisation récursive d'arbres abstractifs pour le RAG ; HippoRAG le bat sur les benchmarks multi-sauts, mais RAPTOR peut mieux gérer les tâches de synthèse à longue portée là où la traversée de graphe n'est pas le bon cadre.
- IRCoT (Trivedi et al., arXiv:2212.10509) — la référence de récupération itérative que HippoRAG prétend égaler à un coût inférieur ; mérite d'être lu pour comprendre à quoi correspond réellement l'affirmation d'efficacité de 10 à 30 fois.
