Salta al contingut principal
Data Science

Tot Sobre Data Science

40 articles
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.