Self-RAG: Recuperació Adaptativa i Autocrítica per a LLMs
L'RAG estàndard recupera cada vegada, ajudi o no la recuperació. Self-RAG d'Asai et al. (ICLR 2024 Oral) fa una pregunta diferent: què passaria si el mateix model decidís quan cercar alguna cosa i després avalüés el resultat? Resulta que això importa força, i el mecanisme és prou clar com perquè valgui la pena estudiar-lo amb deteniment.
L'article
El principal greuge amb la Generació Augmentada per Recuperació (RAG) convencional és que és indiscriminada: recupera un nombre fix de fragments per a cada entrada, els anteposa i genera. Això funciona prou bé quan la recuperació ajuda, però perjudica activament quan els fragments són irrellevants o quan el model ja té la resposta en els seus pesos. L'article presenta la Generació Augmentada per Recuperació Autoreflexiva (Self-RAG), escrita per Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil i Hannaneh Hajishirzi (Universitat de Washington i IBM Research).
El mecanisme clau és un conjunt de quatre tokens de reflexió especials integrats en el vocabulari del model en el moment de l'entrenament. Retrieve decideix si cal cridar al recuperador. IsRel (rellevància) avalua si un fragment recuperat conté realment informació útil per a la consulta. IsSup (suport) comprova si l'afirmació generada està totalment, parcialment o gens recolzada pel fragment. IsUse (utilitat) puntua la qualitat general de la resposta de l'1 al 5. El model aprèn a emetre aquests tokens en línia amb la seva sortida normal, de manera que critica la seva pròpia recuperació i generació en una sola passada cap endavant.
L'entrenament consta de dues etapes: primer, un model crític (LLaMA 2, 7B ajustat) s'entrena amb aproximadament 4.000–20.000 exemples etiquetats per tipus de token, assolint més del 90% de concordança amb les prediccions de GPT-4. Aquest crític després anota un corpus d'instrucció-sortida de 150.000 exemples fora de línia, i el generador s'entrena amb aquestes dades anotades amb els tokens de reflexió tractats com a vocabulari ordinari. No es requereix aprenentatge per reforç.
Idees clau
- Els quatre tokens de reflexió (Retrieve, IsRel, IsSup, IsUse) proporcionen al model un diàleg intern estructurat sobre si val la pena confiar en l'evidència, i no només una decisió binària de recuperar o no.
- Self-RAG 13B arriba al 55,8% a PopQA, 69,3% a TriviaQA, 74,5% a PubHealth, 73,1% a ARC-Challenge i un FactScore de Biografia de 80,2, superant ChatGPT i Llama2-chat amb recuperació augmentada en cadascun d'ells.
- Les ablacions a PopQA mostren que eliminar la recuperació en temps de prova costa 20,8 punts percentuals, mentre que eliminar només el crític costa només 2,9 pp: el recuperador és l'element de suport principal; la crítica hi afegeix el calibratge.
- En el moment de la inferència, els pesos dels tokens de crítica es poden ajustar per equilibrar la precisió de les citacions i la fluïdesa sense necessitat de reentrenament. Això fa que el comportament del model sigui configurable per a diferents aplicacions derivades.
- El comitè del programa de l'ICLR 2024 va atorgar a Self-RAG l'estatus d'oral (top 1%), la qual cosa reflecteix un reconeixement genuí dels companys a la contribució tècnica.
Què se sosté — i què no
Els resultats de l'ablació són convincents. L'escletxa entre recuperar sempre i no recuperar mai és gran (20,8 pp); el model clarament va aprendre a distingir la recuperació útil del soroll. Els tokens IsRel i IsSup afegeixen un valor mesurable per sobre de la recuperació adaptativa per si sola. Aquest és un resultat significatiu, no només un canvi de perspectiva.
El que em convenç menys és l'afirmació de generalització. Les cinc tasques d'avaluació (PopQA, TriviaQA, PubHealth, ARC-Challenge, ASQA) són de format curt o preguntes de resposta múltiple, l'escenari exacte on un sol fragment recuperat pot proporcionar un senyal decisiu. La generació de format llarg sobre contextos de múltiples documents, que és on resideixen les tasques financeres, rep menys escrutini. El FactScore de Biografia (80,2) és el millor indicador, però les biografies estan relativament ben estructurades en comparació amb un llibre major de despeses complex de diversos anys.
També hi ha un inconvenient de reproductibilitat: les etiquetes d'entrenament del model crític provenen de GPT-4. Això fa que la qualitat de les etiquetes depengui d'un sistema propietari i introdueix costos d'API que no s'informen. CRAG (arXiv:2401.15884) va demostrar més tard que un avaluador de recuperació de 0,77B —molt més lleuger que el crític 7B de Self-RAG— podia corregir la qualitat de la recuperació i guanyar 19,0 pp sobre l'RAG estàndard a PopQA, suggerint que el pesat crític ajustat podria no ser necessari. Aquest és un repte significatiu per al disseny, encara que la idea central sobre la recuperació selectiva es mantingui.
Finalment, el punt de referència de comparació importa. Superar ChatGPT (probablement GPT-3.5-turbo, a finals de 2023) i Llama2-chat és un llistó raonable per a un model obert de 13B, però els models de frontera han avançat substancialment des d'aleshores. No s'aborda si la recuperació adaptativa de Self-RAG superaria un GPT-4o ben guiat amb una configuració simple de recuperar sempre en aquests mateixos bancs de proves.
Per què això és important per a la IA financera
Els agents financers sobre llibres majors de Beancount s'enfronten exactament al problema de discriminació de recuperació que aborda Self-RAG. Quan un usuari pregunta "quina és la meva renda neta aquest mes?", l'agent pot calcular-ho a partir del seu context carregat; la recuperació podria simplement afegir soroll. Quan el mateix usuari pregunta "vaig registrar la factura del contractista del tercer trimestre?", l'agent ha d'escanejar potencialment anys d'assentaments. Recuperar sempre malbarata el context i corre el risc d'injectar transaccions antigues irrellevants; no recuperar mai fa que es perdi la consulta.
Els tokens IsRel i IsSup es mapegen clarament a la lògica de validació de llibres majors. IsRel: l'assentament de transacció recuperat es relaciona realment amb la consulta? IsSup: el context recuperat recolza realment la xifra del saldo generat, o el número és una al·lucinació? La puntuació d'utilitat (1–5) podria informar la confiança en l'escriptura: només confirmar un assentament de diari proposat quan el model doni al seu propi raonament un 4 o un 5, i marcar la resta per a la revisió humana.
La preocupació per la reproductibilitat també és important aquí. Per a un agent comptable de producció, dependre de GPT-4 per generar etiquetes d'entrenament és una limitació operativa. Si un avaluador més lleuger (estil CRAG) pot aconseguir una recuperació selectiva comparable, aquest seria el camí més viable per al desplegament. Els principis de disseny de Self-RAG —decidir abans de recuperar, criticar després de recuperar— segueixen sent valuosos encara que la recepta específica d'entrenament de tokens sigui substituïda.
Què llegir a continuació
- CRAG: Corrective Retrieval Augmented Generation (arXiv:2401.15884) — es basa en la idea de recuperació adaptativa de Self-RAG amb un avaluador més lleuger i una alternativa de cerca web quan la recuperació local falla; val la pena comparar-lo directament amb Self-RAG en bancs de proves coincidents.
- RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation (arXiv:2404.00610) — se centra específicament en la descomposició de consultes per a preguntes complexes de múltiples passos, que és l'escenari que Self-RAG gestiona amb menys solvència.
- FRAMES: Retrieval and Augmentation for Multi-Hop Evaluation (arXiv:2409.12941) — banc de proves de Google DeepMind per a RAG de múltiples documents que requereix encadenar diversos fets recuperats; una prova natural més difícil per als models d'estil Self-RAG.
