Doorgaan naar hoofdinhoud

FLARE: Actieve Retrieval Augmented Generation

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Vorige week las ik het fundamentele RAG-paper van Lewis et al. — eenmaal ophalen, het resultaat toevoegen, genereren. Het werkt, maar het veronderstelt dat je vooraf weet wat je nodig hebt. FLARE (EMNLP 2023) pakt die aanname direct aan: wat als het juiste moment om informatie op te halen halverwege de zin is, precies wanneer het model onzeker begint te worden? Die vraag is het overwegen waard voor elk systeem — zoals een Beancount-agent — dat moet redeneren over een grootboekgeschiedenis die niet in een enkel contextvenster past.

Het paper

2026-05-18-flare-active-retrieval-augmented-generation

"Active Retrieval Augmented Generation" door Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan en Graham Neubig stelt FLARE voor: Forward-Looking Active REtrieval augmented generation. Het probleem dat zij oplossen is hallucinatie tijdens langdurige generatie, waarbij een model meerdere stukken kennis moet ophalen voor een uitgebreide output. Standaard RAG haalt informatie eenmalig op tijdens de query en hoopt dat de opgehaalde passage alles dekt wat de generatie nodig zal hebben — prima voor korte antwoorden, maar kwetsbaar voor antwoorden van meerdere paragrafen.

FLARE splitst generatie op in stappen op zinsniveau. Bij elke stap genereert het een kandidaat voor de volgende zin. Als een token in die kandidaat een voorspelde waarschijnlijkheid heeft onder een drempelwaarde θ, beschouwt FLARE deze intervallen met laag vertrouwen als retrieval-signalen. Deze worden gebruikt (ofwel gemaskeerd of aangevuld) om een query te vormen, informatie op te halen uit Wikipedia, en de zin opnieuw te genereren met de opgehaalde context. Het resultaat is een systeem dat alleen informatie ophaalt wanneer en ongeveer waar het onzeker is — in plaats van vooraf informatie te laden voor inhoud die het misschien nooit nodig heeft. Alle experimenten werden uitgevoerd op GPT-3.5 (text-davinci-003) zonder enige fine-tuning.

Kernideeën

  • Vertrouwen als retrieval-trigger: een token-waarschijnlijkheid onder θ geeft aan dat het model waarschijnlijk gaat hallucineren; retrieval wordt alleen dan geactiveerd, niet standaard. De auteurs ontdekten dat het activeren voor 40–80% van de zinnen doorgaans het beste werkt.
  • Toekomstgerichte queries: in plaats van alleen te gebruiken wat al gegenereerd is als query (de "vorig-venster" benadering), gebruikt FLARE de voorspelde volgende zin — wat het model denkt dat het gaat zeggen — als een veel gerichtere retrieval-query.
  • Twee varianten: FLARE-instruct maskeert tokens met een laag vertrouwen en gebruikt het gemaskeerde interval als query; FLARE-direct gebruikt de volledige voorspelde zin. Op 2WikiMultihopQA behaalt de direct-variant 51.0 EM tegenover 42.4 voor de instruct-variant.
  • Winst ten opzichte van eenmalige retrieval is reëel maar ongelijk: op 2WikiMultihopQA haalt FLARE-direct 51.0 EM tegenover 39.4 voor eenmalige retrieval en 28.2 zonder retrieval — een beslissende verbetering. Op ASQA is het verschil veel kleiner (41.3 vs. 40.0), en WikiAsp (UniEval 53.4 vs. 52.4) is bijna een gelijkspel.
  • Expliciete faalgevallen: de auteurs rapporteren dat FLARE geen winst biedt op Wizard of Wikipedia en ELI5, waar korte outputs betekenen dat meerstaps retrieval overhead toevoegt zonder voordeel.
  • Kosten: omdat generatie en retrieval elkaar afwisselen, kan elk voorbeeld meerdere LM-aanroepen en retrieval-calls veroorzaken. Caching is niet eenvoudig.

Wat overeind blijft — en wat niet

De toekomstgerichte inkadering is het werkelijk slimme gedeelte. Het gebruik van voorspelde inhoud als retrieval-query is informatiever dan alleen de prefix, vooral voor multi-hop taken waar tussenconclusies bepalen welk feit je vervolgens nodig hebt. Het verschil van 51.0 vs. 39.4 EM op 2WikiMultihopQA ondersteunt dit.

Maar het vertrouwenssignaal van FLARE hangt volledig af van hoe goed het model gecalibreerd is. Token-waarschijnlijkheden van een basismodel zoals text-davinci-003 correleren redelijk met onzekerheid. Dat geldt niet voor voor instructies getunede of met RLHF verfijnde chatmodellen, die vaak overmoedig zijn — ze geven tokens met een hoge waarschijnlijkheid af, zelfs als ze hallucineren. Een vervolgonderzoek uit 2024, Unified Active Retrieval (UAR, arXiv:2406.12534), benchmarkt FLARE op een bredere set retrieval-beslissingen en stelt vast dat het slechts 56,50% nauwkeurigheid behaalt in diverse scenario's, vergeleken met 85,32% voor de op classifiers gebaseerde benadering van UAR. Het calibratieprobleem is geen uitzondering; het is de kernaanname waar de methode op rust.

Er is ook een vraag over de granulariteit van retrieval die het paper niet volledig beantwoordt. Activering op zinsniveau is een redelijke heuristiek, maar sommige feiten overschrijden zinsgrenzen, terwijl andere beperkt zijn tot een enkele entiteitsnaam. Een lage waarschijnlijkheid op een numeriek token (een bedrag, een datum) zou waarschijnlijk anders retrieval moeten triggeren dan een lage waarschijnlijkheid op een voegwoord. Het paper behandelt alle tokens met een laag vertrouwen symmetrisch.

Ten slotte introduceert de "opnieuw genereren bij onzekerheid"-lus latentie. De auteurs erkennen dit, maar kwantificeren het niet tegenover een latentiebudget, wat van belang is voor interactieve of bijna-realtime toepassingen.

Waarom dit belangrijk is voor financiële AI

Een Beancount-agent die een meerjarig grootboek samenvat, kan niet alle historische boekingen vooraf ophalen — de context zou overstromen en het grootste deel zou irrelevant zijn voor het specifieke antwoord. Het ontwerp van FLARE sluit goed aan bij dit probleem: genereer een eerste concept van het reconciliatie-commentaar, merk een laag vertrouwen op bij het lopende saldo van een specifieke leverancier, haal alleen de relevante transacties op, en genereer die zin vervolgens opnieuw. Het patroon is solide.

Het calibratieprobleem is echter een serieuze zorg. Productie-financiële agents maken bijna universeel gebruik van voor instructies getunede chatmodellen (GPT-4, Claude, Gemini), geen basismodellen. Als deze modellen overmoedig zijn — wat ze vaak zijn bij numerieke beweringen — zullen ze retrieval overslaan op precies het moment dat ze het zouden moeten activeren. Een Beancount write-back agent die met hoog vertrouwen een transactiedatum hallucineert en nooit gegevens ophaalt om dit te verifiëren, is slechter dan nutteloos.

De praktische les is om de toekomstgerichte query-constructie van FLARE te koppelen aan een retrieval-trigger die niet uitsluitend vertrouwt op token-waarschijnlijkheid. Expliciete onzekerheidsmarkeringen (voorbehoud-fraseringen, ronde getallen, entiteiten die het model onlangs niet heeft gezien) zouden het vertrouwenssignaal kunnen aanvullen. Of kies voor de UAR-benadering: train een lichtgewicht classifier op de verborgen toestanden van het model die robuuster is voor miscalibratie dan ruwe logits.

Wat je nu kunt lezen

  • IRCoT: "Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions" (arXiv:2212.10509) — koppelt retrieval aan CoT-stappen in plaats van token-vertrouwen; de moeite waard om direct te vergelijken met FLARE bij multi-hop taken.
  • Unified Active Retrieval (UAR, arXiv:2406.12534) — het directe vervolg dat de calibratiekloof van FLARE blootlegt en op classifiers gebaseerde retrieval-beslissingen voorstelt voor vier verschillende scenario's.
  • "Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home" (arXiv:2501.12835) — een paper uit 2025 dat opnieuw onderzoekt of op token-waarschijnlijkheid gebaseerde triggers gerehabiliteerd kunnen worden met betere calibratietechnieken.