FinanceBench: Per què el RAG de magatzem de vectors falla en documents financers reals
FinanceBench arriba en un moment en què tots els proveïdors d'IA empresarial afirmen que el seu sistema pot «respondre preguntes dels vostres documents financers». Aquest article de Patronus AI posa a prova aquestes afirmacions utilitzant documents reals de la SEC i preguntes de llibre obert acuradament seleccionades. Els resultats són una lectura incòmoda per a qualsevol que estigui construint IA per a finances.
L'article
Islam et al. presenten FinanceBench: A New Benchmark for Financial Question Answering (arXiv:2311.11944), un conjunt de proves de 10.231 preguntes sobre empreses que cotitzen en borsa extretes de documents reals de la SEC: informes anuals 10-K, informes trimestrals 10-Q, informes actuals 8-K i transcripcions de resultats. A diferència dels conjunts de dades de QA financer anteriors (FinQA, TAT-QA), que presenten taules i fragments preextrets, FinanceBench requereix que un sistema recuperi l'evidència dels documents complets abans de respondre. Aquest és l'entorn realista. Les preguntes estan dissenyades per ser factualment inequívoques i, en paraules dels autors, «un estàndard de rendiment mínim».
L'equip va avaluar 16 configuracions que incloïen GPT-4-Turbo, Llama2 i Claude2 en quatre estratègies de recuperació: llibre tancat (sense recuperació), magatzem de vectors compartit, magatzem de vectors per document i indicacions de context llarg (long-context prompts) que alimenten la pàgina pertinent completa. Els anotadors humans van revisar manualment les 2.400 respostes de 150 casos de codi obert.
Idees clau
- La recuperació no és el coll d'ampolla. GPT-4-Turbo, amb el fragment d'oracle (la pàgina exacta que conté la resposta), encara només assoleix el 85% de precisió. El context llarg (alimentant la pàgina correcta automàticament) obté un 79%. Una recuperació perfecta només et dona sis punts.
- El RAG de magatzem de vectors és el problema real. GPT-4-Turbo amb un magatzem de vectors per document: 50% correcte, 39% denegat. Amb un magatzem de vectors compartit entre empreses: 19% correcte, 68% denegat. El titular de la «taxa de fracàs del 81%» prové d'aquesta configuració de magatzem compartit, que és la configuració que realment utilitzen la majoria de demostracions empresarials.
- Els models fallen de manera diferent. Llama2 al·lucina agressivament (54–70% incorrecte); GPT-4-Turbo es nega a respondre (39–68% denegat en lloc de ser erroni). Ambdós modes de fallada són inacceptables en producció, però no són riscos equivalents.
- El 66% de les preguntes requereixen raonament numèric. Taxes de creixement, marges, variacions interanuals. Aquí és on els models s'equivoquen més sovint: errors de càlcul, confusió d'unitats, errors de signe.
- El context llarg gairebé ho salva. Claude2 amb context llarg: 76% correcte. GPT-4-Turbo amb context llarg: 79%. Aquestes són les millors xifres pràctiques, obtingudes saltant-se la recuperació i introduint la pàgina pertinent completa directament.
- Fins i tot l'oracle té filtracions. Amb evidència perfecta, el sostre és del 85%, no del 100%. El quinze per cent dels fracassos són errors de raonament pur sense cap component de recuperació.
Què se sosté i què no
El disseny del benchmark és sòlid. Insistir en documents reals en lloc de fragments preextrets és l'elecció metodològica correcta; posa a prova el que realment importa en el desplegament. L'avaluació manual de 2.400 respostes és costosa i creïble.
El que trobo menys convincent és extreure rànquings a partir de n=150. La diferència entre el context llarg de Claude2 (76%) i el de GPT-4-Turbo (79%) no té sentit estadístic amb aquesta mida de mostra, però l'article ho presenta com un rànquing. El benchmark complet de 10.231 preguntes existeix però no té una puntuació pública, cosa que en limita la reproducció independent.
El resultat de l'oracle és també la troballa més important i la menys analitzada. Si els models fallen el 15% de les vegades amb la pàgina correcta a la mà, el problema és el raonament i l'aritmètica, no la recuperació. L'article assenyala les eines de calculadora i la cadena de pensament com a treball futur; aquests experiments haurien d'haver estat el centre d'aquest article, no la nota a peu de pàgina.
El benchmark també reconeix que s'adreça al «rendiment mínim»: preguntes d'un sol document amb respostes inequívoques. El raonament entre documents, les tendències plurianuals i les comparacions entre empreses en queden fora. Els articles que citin la xifra del 79% del context llarg rarament inclouran aquest advertiment.
Per què això és important per a la IA en finances
L'ús de Beancount per a la retroescriptura es mapeja gairebé directament amb els modes de fallada de FinanceBench. Un agent que recupera una entrada de transacció i comprova si l'import coincideix amb un extracte bancari està fent la mateixa tasca de recuperació i després aritmètica que mesura aquest benchmark. El sostre de l'oracle (85% fins i tot amb un context perfecte) és la limitació de disseny pertinent: fins i tot si l'agent troba l'entrada correcta del llibre diari, hi ha una probabilitat real que calculi malament la comparació, confongui el signe o llegeixi malament les unitats.
La divisió de fallades entre Llama2 i GPT-4 és important per a l'arquitectura de l'agent. Una denegació es pot recuperar (derivant-la a una revisió humana); una coincidència al·lucinada registrada al llibre no. Això suggereix que és preferible un comportament de denegació conservador a una al·lucinació amb confiança, fins i tot a costa d'una taxa d'èxit aparent més baixa.
L'avantatge del context llarg (79% vs. 50%) és pràcticament frustrant per a les aplicacions de llibres comptables. Els fitxers de Beancount de diversos anys són massa grans per introduir-los complets. Resoldre la recuperació en documents numèrics densos —no només la recuperació de text— continua sent un problema obert.
Què llegir a continuació
- FinQA: A Dataset of Numerical Reasoning over Financial Data (Chen et al., EMNLP 2021, arXiv:2109.00122) — el benchmark precursor que FinanceBench millora explícitament; útil per entendre què es va fer bé en el camp abans que es requerís la recuperació de documents reals.
- DocFinQA: A Long-Context Financial Reasoning Dataset (Reddy et al., ACL 2024) — amplia FinanceBench amb preguntes de múltiples salts més difícils que requereixen un raonament de seccions creuades dins d'un mateix document.
- PAL: Program-Aided Language Models (Gao et al., arXiv:2211.10435, ICML 2023) — delega l'aritmètica a un intèrpret de Python, abordant directament el 66% de les preguntes de FinanceBench que fallen en el raonament numèric.
