Salta al contingut principal

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La majoria de les proves de rendiment RAG en finances es pregunten si un sistema pot recuperar i respondre, i punt. OmniEval (EMNLP 2025, arXiv:2412.13018) de Shuting Wang et al. a la RUC planteja una pregunta més difícil: es manté el rendiment en tota la matriu de tipus de tasques i temes financers? L'estic llegint ara perquè és l'intent més estructurat de mapar la forma del fracàs del RAG en finances abans d'intentar construir agents de llibres comptables de Beancount fiables sobre fluxos de treball RAG.

L'article

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval construeix una graella d'avaluació bidimensional: cinc classes de tasques (QA extractiva, raonament multihop, QA de contrast, QA de format llarg i QA conversacional) creuades amb 16 temes financers (mercats de valors, banca d'inversió, fons, assegurances de propietat i altres). El resultat és un banc de proves estructurat amb 11,4 mil exemples de prova generats automàticament, 1,7 mil exemples anotats per humans i un corpus de recuperació de 362 mil documents reunit a partir de sis fonts de dades financeres xineses (BSCF-DB amb 193 mil documents, FinGLM amb 55 mil, BAAI-Fin amb 48 mil, rastrejos web oficials, PDF i contingut financer de la Viquipèdia). El banc de proves també inclou un avaluador LLM ajustat (fine-tuned) —Qwen2.5-7B-Instruct entrenat en 910 instàncies etiquetades per humans— que puntua la qualitat de la generació segons la precisió, l'al·lucinació, la completesa, la utilització i la precisió numèrica. L'article es va publicar a l'EMNLP 2025.

Idees clau

  • Els casos de prova generats automàticament van passar una comprovació d'acceptació humana del 87,47%, cosa que significa que aproximadament 1 de cada 8 instàncies generades va ser descartada; no és una taxa de soroll trivial per a un banc de proves.
  • El millor recuperador (GTE-Qwen2-1.5B) va aconseguir un MAP de 0,4370 i un MRR de 0,4491 en el conjunt generat automàticament, la qual cosa significa que el fragment millor classificat és correcte menys de la meitat de les vegades, fins i tot amb el recuperador més potent provat.
  • La precisió de la generació (ACC) en totes les combinacions de recuperador-LLM va oscil·lar entre 0,3238 i 0,4476: la millor configuració encerta menys de la meitat de les preguntes.
  • La precisió numèrica (NAC) és la troballa més punyent: de 0,0659 a 0,3595. El millor sistema encerta els números financers aproximadament el 36% de les vegades; el pitjor està prop de zero.
  • L'avaluador ajustat va assolir un 74,4% de concordança amb l'anotació humana (κ = 0,6486), superant substancialment les línies de base només amb indicacions (prompting) del 55–71%, però deixant tot i així una de cada quatre avaluacions desalineada amb el judici humà.
  • El raonament multihop i les consultes conversacionals van ser constantment les classes de tasques més difícils.

Què se sosté — i què no

El disseny d'avaluació matricial és realment útil. Els bancs de proves financers anteriors (FinanceBench, FinQA, DocFinQA) tracten l'avaluació com un sol eix —normalment la precisió de la resposta— i passen per alt la variació estructural de com falla el RAG. Saber que un sistema puntua bé en QA extractiva però malament en raonament multihop és accionable; saber que té una puntuació mitjana general no ho és. La graella d'OmniEval fa visible aquesta variació, i la troballa que el rendiment és inconsistent segons els temes és exactament el tipus de resultat que els professionals necessiten veure abans d'implementar.

Dit això, hi ha límits reals que vull assenyalar directament. El corpus és aclaparadorament xinès: cinc de les sis fonts de dades són dades financeres xineses (BSCF, FinGLM, BAAI-Fin), i la sisena és la Viquipèdia en xinès. L'article no informa de resultats desglossats per idioma; només informa de xifres agregades. Això fa que cada puntuació de l'article sigui sospitosa com a afirmació sobre el RAG financer en general, en contrast amb el RAG financer sobre text xinès amb recuperadors i LLM especialitzats en xinès (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Els usuaris financers en altres idiomes no poden utilitzar directament aquestes xifres.

L'avaluador LLM està entrenat en 910 instàncies etiquetades. Això és poc. La concordança humana del 74,4% amb κ = 0,6486 és defensable com a punt de partida, però significa que el marc d'avaluació en si mateix introdueix un soroll substancial. Si s'utilitza el banc de proves per comparar sistemes que difereixen en pocs punts percentuals, la variància de l'avaluador taparà el senyal.

El flux de generació automàtica —el GPT-4 produeix les preguntes de prova i els humans filtren amb una acceptació del 87,47%— també planteja una qüestió de contaminació que l'article no aborda: les preguntes generades pel GPT-4 poden afavorir els punts forts dels models de la classe GPT-4 de manera que perjudiquin sistemàticament els models més antics o més petits.

Per què això és important per a la IA financera

Les puntuacions de precisió numèrica són la xifra a la qual torno constantment: 0,0659–0,3595. Si el millor sistema RAG provat només encerta els números financers el 36% de les vegades en una avaluació de referència, qualsevol agent d'escriptura de Beancount construït sobre un flux RAG ingenu corromprà les dades del llibre comptable. El format de Beancount és implacable: un import, una data o un nom de compte incorrecte produeix o bé un error d'anàlisi o bé un error comptable silenciós que es pot propagar a través dels exercicis fiscals. Aquest banc de proves ens dóna proves concretes que la recuperació RAG i la generació LLM encara no són prou fiables per a l'escriptura directa en el llibre comptable sense una capa de validació.

L'estructura de classes de tasques també es maparia clarament als casos d'ús de Beancount. La QA extractiva correspon a consultes de saldo senzilles. El raonament multihop correspon a preguntes com "quin és el meu ingrés net després d'impostos entre el primer i el tercer trimestre?". La QA conversacional correspon a un usuari que refina iterativament una sol·licitud de conciliació al llarg d'una sessió. La troballa d'OmniEval que les tasques multihop i conversacionals són les més difícils és exactament la mala notícia per al disseny de l'agent Beancount: els casos fàcils estan gairebé bé; els casos realistes és on el sistema s'enfonsa.

Què llegir a continuació

  • ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — l'anàleg de domini general més proper a l'enfocament d'ajust de l'avaluador d'OmniEval; comparar la metodologia d'ARES amb la d'OmniEval aclariria si les opcions de disseny de l'avaluador LLM són basades en principis o ad hoc.
  • RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — generació automàtica d'escenaris per a l'avaluació RAG; amplia la metodologia d'auto-generació que utilitza OmniEval i pot abordar la preocupació per la contaminació.
  • FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — amplia l'avaluació RAG a documents financers multimodals (taules, gràfics); rellevant ja que els usuaris de Beancount tenen cada cop més imatges de rebuts i extractes en PDF juntament amb llibres comptables en text pla.