Salta al contingut principal

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

He estat pensant en el problema de "perduts al mig" (lost-in-the-middle) des que vaig escriure el registre sobre la troballa original de Liu et al.: passa un context llarg a un LLM, i aquest ignorarà de manera fiable l'evidència enterrada al mig. "Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization" (Hsieh et al., ACL Findings 2024, arXiv:2406.16008) ofereix la solució més directa i pràctica que he vist: un calibratge en temps d'inferència sense entrenament que resta el biaix posicional del model dels seus pesos d'atenció, recuperant fins a 15 punts percentuals de precisió en RAG.

L'article

2026-07-02-found-in-the-middle-calibrating-positional-attention-bias

Hsieh et al. parteixen d'una observació diagnòstica: els LLM —fins i tot els entrenats en contextos llargs— presenten un patró d'atenció persistent en forma d'U. Els tokens al principi i al final de l'entrada reben una atenció desproporcionadament alta independentment de si són rellevants, mentre que els tokens del mig són sistemàticament infraponderats. Els autors connecten això empíricament amb la caiguda de precisió de "perduts al mig" en lloc de tractar-ho com un fenomen separat.

La seva solució és elegant en concepte. Descomponen l'atenció en dos components additius: rellevància (el que volem) i biaix posicional (el que no volem). Per aïllar el terme del biaix, passen un document "fictici" (dummy) —contingut de farciment no informatiu— pel mateix context a cada posició i registren la distribució d'atenció resultant. Aquesta atenció del document fictici aproxima el prior posicional pur. Restar-lo de les puntuacions d'atenció reals deixa un residu que reflecteix millor la rellevància real:

Atenció calibrada = Attn(document, k) − Attn(dummy, k)

Les puntuacions reescalades s'utilitzen llavors per tornar a classificar o ponderar els documents recuperats abans del pas final de generació de la resposta. De manera crucial, no es requereix cap entrenament. El calibratge s'aplica en el moment de la inferència a les darreres 16 capes del descodificador i a tots els capçals d'atenció. El cost és d'O(K) passades endavant addicionals, on K és el nombre de documents recuperats —no és trivial, però és predictible.

Idees clau

  • El biaix d'atenció en forma d'U és intrínsec a l'arquitectura del model i persisteix fins i tot en models entrenats explícitament amb objectius de context llarg.
  • Passar un document fictici (buit o amb soroll) pel mateix context de recuperació aïlla el prior posicional; restar-lo elimina el biaix sense cap ajustament fi (finetuning).
  • El Recall@3 a NaturalQuestion (K=20, document clau col·locat al mig) puja del 20,52% al 68,32% amb el calibratge; amb K=10, del 36,38% al 74,27%.
  • La precisió de QA d'extrem a extrem millora entre 6 i 15 punts percentuals quan el document clau està al mig del context; les millores es mantenen en 22 de les 24 configuracions experimentals.
  • El mètode supera sis línies base de comparació: atenció estàndard, classificació per generació de consultes, indicació de generació de rellevància, ordenació per atenció (Peysakhovich & Lerer 2023), reordenació de la indicació (prompt) i LongLLMLingua-rk.
  • El mètode es va avaluar amb NaturalQuestion (2.655 consultes reals sobre Wikipedia) i SynthWiki (990 entrades sintètiques generades per GPT-4).

Què se sosté — i què no

El resultat principal és sorprenent i me'l crec. Una diferència de Recall@3 del 20,52% → 68,32% per a documents clau al mig del context no és el tipus de xifra que s'evapora sota escrutini; està mesurant quelcom real sobre com es distribueix l'atenció. El disseny sense entrenament és un avantatge pràctic genuí: pots aplicar-ho sobre qualsevol flux de treball de RAG existent sense tocar els pesos del model.

Dit això, tinc algunes reserves. Primer, l'enfocament del "document fictici" assumeix que el biaix posicional és aproximadament separable per posició i additiu —una descomposició lineal que els mateixos autors assenyalen que podria ser una simplificació excessiva. El biaix d'atenció real pot interactuar amb el contingut de maneres no lineals. Segon, les O(K) passades endavant addicionals es descriuen com a "acceptables", però mai es comparen pel que fa a latència o cost. En un sistema de producció amb K=20 recuperacions, estàs executant 21 passades endavant en lloc d'una per consulta. Per a un agent de Beancount que tria centenars de transaccions, aquest multiplicador importa.

Tercer —i aquesta és la limitació més interessant—, els autors assenyalen que el biaix posicional podria ser realment útil per a certes tasques. El biaix de recència, per exemple, podria ser el que fa que un model ponderi correctament les entrades de llibre recents per sobre de les més antigues. Eliminar el biaix indiscriminadament podria perjudicar tasques on la posició és un senyal vàlid. Això es reconeix però no s'estudia.

Finalment, els experiments utilitzen NaturalQuestion i un conjunt de dades sintètic. Els documents específics de finances —taules denses, informes de diversos anys, entrades de llibre diari amb estructura repetitiva— són molt diferents dels passatges de domini obert de la Wikipedia. El calibratge s'hauria de validar en aquestes distribucions abans d'afirmar que funcionarà per al RAG financer.

Per què això importa per a la IA financera

La connexió directa és clara: cada registre des de DocFinQA ha estat voltant el mateix problema. Quan un agent de Beancount recupera 20 entrades de llibre diari rellevants per respondre a una pregunta com "concilia el març amb l'extracte bancari", les entrades del mig de la finestra recuperada rebran sistemàticament menys atenció en relació amb les entrades de la part superior i inferior del context. Això no és un error de recuperació, és un error de generació que cap millora en la classificació de recuperació arreglarà.

El calibratge de "trobat al mig" és una mitigació plausible que no requereix reentrenar el model subjacent i podria aplicar-se directament dins del pas de generació de qualsevol flux de treball de QA sobre llibres comptables. La preocupació pel cost O(K) és real però gestionable; una finestra de recuperació de 20 documents amb un model de mida moderada encara està dins dels límits pràctics. El que voldria veure abans de desplegar-ho és una validació específica sobre dades estructurades de Beancount: la correcció posicional ajuda uniformement o suprimeix sense voler el senyal de recència que fa que les transaccions recents siguin més fiables que les antigues?

El principi més ampli —que els mecanismes d'atenció codifiquen priors posicionals independentment de la rellevància del contingut, i que aquests priors es poden calibrar sense reentrenament— val la pena tenir-lo en compte. Obre la porta a calibratges similars per a altres biaixos: biaix de freqüència de tokens, normalització de la longitud de l'entrada, biaix de verbositat en la generació.

Què llegir a continuació

  • "Mitigate Position Bias in LLMs via Scaling a Single Hidden States Channel" (arXiv:2406.02536, ACL Findings 2025) — proposa escalar una sola dimensió d'estat ocult en lloc de restar puntuacions d'atenció; val la pena comparar-ho directament amb l'enfocament de "trobat al mig".
  • "Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey" (arXiv:2409.01980, NAACL 2025) — el següent a la llista de lectura; uneix els fils d'AnoLLM, CausalTAD i AD-LLM en una taxonomia unificada.
  • Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (arXiv:2307.03172, TACL 2023) — el diagnòstic original al qual respon "trobat al mig"; lectura de base essencial.