Salta al contingut principal

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

FinDER (arXiv:2504.15800) és un banc de proves de recuperació construït al voltant d'una observació senzilla però poc valorada: les consultes que els professionals financers reals escriuen no s'assemblen gens a les preguntes polides dels bancs de proves acadèmics. El llegeixo perquè es troba en la intersecció de dos fils que he estat seguint: la bretxa de recuperació en la IA financera i el problema del realisme pràctic que DocFinQA i FinanceBench van començar a exposar.

L'article

2026-06-28-finder-financial-dataset-rag-evaluation

Chanyeol Choi, Jihoon Kwon i els seus col·legues d'una empresa d'IA financera presenten un conjunt de dades de 5.703 triplets de consulta–evidència–resposta anotats per experts, obtinguts d'un servei real de preguntes i respostes per a analistes de fons de cobertura. Els documents són informes del model 10-K de 490 empreses de l'S&P 500, recollits de l'SEC EDGAR. El que distingeix FinDER dels bancs de proves anteriors és la part de la consulta: el 89,86% de les consultes contenen tres o més abreviatures o acrònims específics del domini. En lloc de "Quins són els ingressos totals de l'empresa X per a l'exercici fiscal 2023?", un analista real podria escriure "GOOGL 10-K FY23 revs breakdown by segment". El conjunt de dades es va publicar al Taller de l'ICLR 2025 sobre Avanços en IA Financera i més tard va aparèixer a l'ICAIF 2025.

Idees clau

  • La recuperació de context és sorprenentment baixa en tots els aspectes: E5-Mistral (el millor recuperador dens) només aconsegueix un 25,95% de recuperació de context global; BM25 n'aconsegueix un 11,68%. La categoria "Financials" —la més directament rellevant per a la comptabilitat— és la més difícil: un 15,84% i un 6,42% respectivament.
  • L'ambigüitat de la consulta per si sola costa 8,2 punts de precisió: Provant l'E5-Mistral en 500 consultes, els autors comparen paràfrasis ben formades (33,9 de precisió) amb les consultes reals abreujades (25,7 de precisió). La bretxa és totalment atribuïble al maneig d'abreviatures/acrònims, no a la complexitat del document.
  • La qualitat de la recuperació és el coll d'ampolla dominant per a la generació: Els LLM sense context puntuen gairebé zero (9–10% d'encerts); amb els 10 millors fragments recuperats arriben al 29–34%; amb un context d'oracle perfecte salten al 60–68%. Aquesta bretxa de 35 punts entre les condicions reals i les d'oracle és més gran que la bretxa entre els models de codi obert i els d'última generació.
  • L'aritmètica compositiva falla fins i tot amb una bona recuperació: Les tasques de càlcul de diversos passos (consultes compositives) només assoleixen un ~20% d'encerts en els quatre models —Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill i Qwen-QWQ— fins i tot amb els 10 millors fragments recuperats. GPT-o1 lidera les tasques de multiplicació amb un 42,90%, però cau al 27,78% en la divisió.
  • El reranking per LLM afegeix una millora modesta però constant: Permetent que els models tornin a classificar els 10 millors resultats de l'E5-Mistral abans de respondre, Claude-3.7-Sonnet aconsegueix un F1 de 63,05 i GPT-o1 arriba a 62,90. Deepseek-R1-Distill es queda enrere amb 60,01, malgrat el seu fort rendiment en el raonament estructurat en altres llocs.
  • La dificultat de les categories és desigual: Les consultes sobre riscos són les més fàcils de recuperar (E5-Mistral: 33,07 de recuperació); les finances continuen sent les més difícils (15,84). Això es correlaciona amb l'estructura de la consulta: les revelacions de riscos utilitzen prosa en llenguatge natural, les taules financeres utilitzen una notació numèrica densa.

Què se sosté — i què no

La contribució principal és sòlida: es tracta d'una distribució de consultes real d'analistes en actiu, i el problema de les abreviatures és genuí. Qualsevol banc de proves construït a partir de la Viquipèdia o del crowdsourcing tipus FinQA passa això per alt. L'estructura d'avaluació de tres nivells —sense context, recuperació realista, context d'oracle— és el disseny correcte; separa clarament la qualitat de la recuperació de la qualitat del raonament i mostra la bretxa de generació residual (encara un ~32–34% de fracàs fins i tot amb un context perfecte en preguntes qualitatives).

On l'article és més feble és en la reproductibilitat. En el moment de la publicació, el conjunt de dades no estava disponible públicament; els autors afirmen que "tenen previst publicar-lo més endavant". Això és un problema significatiu per a un article de taller que es presenta com un estàndard d'avaluació. Els bancs de proves que no es publiquen no són bancs de proves; són estudis de cas. Des de llavors ha aparegut a l'ICAIF 2025, de manera que és possible que s'hagi publicat posteriorment, però la versió d'arXiv no ho confirma.

L'avaluació de la recuperació també utilitza només quatre models d'una sola etapa (BM25, GTE, mE5, E5-Mistral). No hi ha recuperació híbrida, ni expansió de consultes, ni HyDE, ni cap pas de reescriptura orientat específicament al problema de les abreviatures. Atès que els autors han caracteritzat amb precisió la bretxa de les abreviatures, sorprèn que no provin la solució òbvia: expandir la consulta ("GOOGL" → "Alphabet Inc.") abans de la recuperació. Aquest experiment està absent.

Els resultats de generació mereixen una lectura més detinguda. El rendiment de ~9–10% sense context no és un límit inferior útil —és essencialment zero—, però el sostre de l'oracle del 60–68% és més informatiu del que sembla. Fins i tot amb el fragment correcte a la mà, els millors models fallen en aproximadament un terç de les preguntes qualitatives i en quatre cinquenes parts de l'aritmètica compositiva. Aquest sostre és important: significa que la recuperació per si sola no pot resoldre el problema.

Per què això és important per a la IA financera

La distribució de consultes a FinDER s'ajusta bé a com els usuaris de Beancount interactuen realment amb un agent de llibre major. Un usuari que hagi mantingut els seus comptes durant anys escriurà consultes contextuals i abreujades: "AMZN card Q3 reemb?" en lloc de "Quins són els reemborsaments de la targeta Amazon al tercer trimestre?". Els models d'embedding estàndard no aconseguiran recuperar les entrades correctes perquè es van entrenar amb text net en llenguatge natural. La caiguda de precisió de 8,2 punts de les consultes netes a les reals és probablement conservadora per a un domini de llibre major personal, on les abreviatures idiosincràtiques ("quota gest. prop." per "quota de gestió de la propietat") estan encara més lluny de les dades d'entrenament que les abreviatures estàndard de la SEC.

El sostre de recuperació de context del 25,95% a l'E5-Mistral és una força impulsora: qualsevol pipeline de RAG per a Beancount ha de preveure una gran fracció d'evidència perduda. Una implicació és que la re-recuperació d'alta recuperació (múltiples passades, formulacions de consulta diversificades) importa més que augmentar l'F1 en una sola passada. Una altra és que la normalització de la consulta —mapejar les abreviatures de l'usuari als noms de compte canònics abans de la recuperació— hauria de ser un pas de preprocessament explícit, no deixar-ho en mans del model d'embedding.

La precisió del 20% en l'aritmètica compositiva fins i tot amb context d'oracle és un senyal independent: per a les tasques de càlcul de Beancount, el coll d'ampolla de la generació és el raonament, no la recuperació. La descàrrega tipus PAL (generar aritmètica de Python en lloc de càlculs de text lliure) continua sent la resposta correcta per a les tasques numèriques independentment de com de bona sigui la recuperació.

Què llegir a continuació

  • Fin-RATE (arXiv:2602.07294) — el banc de proves complementari per al seguiment de diversos períodes en presentacions de la SEC; la precisió cau un 18,60% en tasques temporals, que és el problema del llibre major de Beancount de diversos anys plantejat directament.
  • IRCoT (arXiv:2212.10509, ACL 2023) — entrellaçant la recuperació amb el raonament de cadena de pensament; l'estructura de recuperació de múltiples passades aborda directament la baixa recuperació d'una sola passada que exposa FinDER.
  • Expansió de consultes amb LLM per a la recuperació específica del domini — cap article de banc de proves ho cobreix bé encara, però la bretxa d'abreviatures de FinDER el converteix en una prioritat de recerca de primer ordre; buscar "HyDE financial domain" i "query expansion SEC filings 2025" és el punt de partida correcte.