Salta al contingut principal

FLARE: Generació Augmentada per Recuperació Activa

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La setmana passada estava llegint l'article fonamental sobre RAG de Lewis et al. — recuperar una vegada, anteposar el resultat, generar. Funciona, però pressuposa que saps per endavant què necessitaràs. FLARE (EMNLP 2023) ataca directament aquesta suposició: i si el moment adequat per recuperar és a mitja frase, just quan el model comença a tenir dubtes? Val la pena reflexionar acuradament sobre aquesta qüestió per a qualsevol sistema —com un agent de Beancount— que hagi de raonar sobre un historial de llibre major que no cap en una sola finestra de context.

L'article

2026-05-18-flare-active-retrieval-augmented-generation

"Active Retrieval Augmented Generation" de Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan i Graham Neubig proposa FLARE: Forward-Looking Active REtrieval augmented generation. El problema que resolen és l'al·lucinació durant la generació de format llarg, on un model ha d'extreure múltiples fragments de coneixement al llarg d'una sortida extensa. El RAG estàndard recupera un cop en el moment de la consulta i confia que el fragment recuperat cobreixi tot el que la generació necessitarà —correcte per a respostes curtes, fràgil per a respostes de diversos paràgrafs.

FLARE divideix la generació en passos a nivell de frase. A cada pas, genera una frase candidata següent. Si algun token d'aquesta candidata té una probabilitat predita per sota d'un llindar θ, FLARE tracta aquests intervals de baixa confiança com a senyals de recuperació, els utilitza (ja sigui emmascarats o completats) per formar una consulta, recupera de la Viquipèdia i regenera la frase amb el context recuperat. El resultat és un sistema que recupera només quan i aproximadament on té dubtes —sense carregar inicialment la recuperació per a continguts que mai necessitarà. Tots els experiments s'executen en GPT-3.5 (text-davinci-003) sense cap ajust fi.

Idees clau

  • Confiança com a activador de recuperació: la probabilitat de token per sota de θ indica que és probable que el model al·lucini; la recuperació s'activa només llavors, no per defecte. Els autors troben que activar-la per al 40–80% de les frases sol funcionar millor.
  • Consultes prospectives: en lloc d'utilitzar només el que ja s'ha generat com a consulta (l'enfocament de "finestra anterior"), FLARE utilitza la frase següent predita —el que el model creu que dirà— com una consulta de recuperació molt més específica.
  • Dues variants: FLARE-instruct emmascara els tokens de baixa confiança i utilitza l'interval emmascarat com a consulta; FLARE-direct utilitza tota la frase predita. A 2WikiMultihopQA, la variant directa arriba a un 51,0 EM enfront del 42,4 de la variant instruct.
  • Els guanys respecte a la recuperació única són reals però desiguals: a 2WikiMultihopQA, FLARE-direct arriba al 51,0 EM enfront del 39,4 de la recuperació única i el 28,2 sense recuperació —una millora decisiva. A ASQA la diferència és molt més petita (41,3 vs. 40,0), i a WikiAsp (UniEval 53,4 vs. 52,4) és gairebé un empat.
  • Casos de fallada explícits: els autors informen que FLARE no ofereix cap guany a Wizard of Wikipedia i ELI5, on les sortides curtes fan que la recuperació en múltiples passos afegeixi sobrecàrrega sense benefici.
  • Cost: a causa de la intercalació de generació i recuperació, cada exemple pot activar múltiples complecions de l'LM i crides de recuperació. La memòria cau no és senzilla.

El que es manté — i el que no

L'enfocament prospectiu és la part realment enginyosa. Utilitzar el contingut predit com a consulta de recuperació és més informatiu que el prefix sol, especialment per a tasques de múltiples salts on les conclusions intermèdies determinen quin fet necessites a continuació. La diferència de 51,0 vs. 39,4 EM a 2WikiMultihopQA ho confirma.

Però el senyal de confiança de FLARE depèn totalment de com estigui de calibrat el model. Les probabilitats de tokens d'un model de compleció base com text-davinci-003 es correlacionen raonablement amb la incertesa. El mateix no passa amb els models de xat ajustats per instruccions o mitjançant RLHF, que sovint tenen un excés de confiança —emeten tokens d'alta probabilitat fins i tot quan al·lucinen. Un seguiment de 2024, Unified Active Retrieval (UAR, arXiv:2406.12534), avalua FLARE en un conjunt més ampli de decisions de recuperació i troba que només assoleix un 56,50% de precisió en diversos escenaris, en comparació amb el 85,32% de l'enfocament basat en classificadors d'UAR. El problema del calibratge no és un cas aïllat; és la hipòtesi central sobre la qual descansa el mètode.

També hi ha una qüestió de granularitat de recuperació que l'article no aborda totalment. L'activació a nivell de frase és una heurística raonable, però alguns fets abasten diversos nexes i d'altres es localitzen en un sol nom d'entitat. Una probabilitat baixa en un token numèric (un import en dòlars, una data) probablement hauria d'activar la recuperació de manera diferent que una probabilitat baixa en una conjunció. L'article tracta tots els tokens de baixa confiança de manera simètrica.

Finalment, el bucle "regenerar si hi ha dubtes" introdueix latència. Els autors ho reconeixen però no ho quantifiquen en relació amb un pressupost de latència, cosa que és important per a aplicacions interactives o en temps real.

Per què això és important per a l'IA financera

Un agent de Beancount que resumeix un llibre major de diversos anys no pot recuperar totes les entrades històriques d'entrada —el context es desbordaria i la major part seria irrellevant per a la resposta en qüestió. El disseny de FLARE s'adapta bé a aquest problema: generar un primer esborrany del comentari de conciliació, detectar una baixa confiança en el saldo acumulat d'un proveïdor específic, recuperar només les transaccions rellevants i després regenerar aquesta frase. El patró és sòlid.

El problema del calibratge, però, és una preocupació seriosa. Els agents financers en producció utilitzen gairebé universalment models de xat ajustats per instruccions (GPT-4, Claude, Gemini), no models de compleció base. Si aquests models tenen un excés de confiança —cosa que passa sovint amb les afirmacions numèriques— ometran la recuperació precisament quan haurien d'activar-la. Un agent d'escriptura de Beancount que al·lucina una data de transacció amb alta confiança i mai la recupera per verificar-la és pitjor que inútil.

La lliçó pràctica és combinar la construcció de consultes prospectives de FLARE amb un activador de recuperació que no depengui exclusivament de la probabilitat dels tokens. Marcadors d'incertesa explícits (frases de precaució, números rodons, entitats que el model no ha vist recentment) podrien complementar el senyal de confiança. O bé adoptar l'enfocament d'UAR: entrenar un classificador lleuger sobre els estats ocults del model que sigui més robust al mal calibratge que els logits bruts.

Què llegir a continuació

  • IRCoT: "Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions" (arXiv:2212.10509) — vincula la recuperació amb els passos de CoT en lloc de la confiança dels tokens; val la pena comparar-lo directament amb FLARE en tasques de múltiples salts.
  • Unified Active Retrieval (UAR, arXiv:2406.12534) — el seguiment directe que exposa la bretxa de calibratge de FLARE i proposa decisions de recuperació basades en classificadors en quatre escenaris de recuperació.
  • "Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home" (arXiv:2501.12835) — un article de 2025 que reexamina si els activadors basats en la probabilitat de tokens es poden rehabilitar amb millors tècniques de calibratge.