Salta al contingut principal
Machine Learning

Tot Sobre Machine Learning

85 articles
Machine learning techniques for financial data analysis and automation

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

JSONSchemaBench avalua 9.558 esquemes JSON del món real amb sis entorns de descodificació restringida i conclou que la complexitat dels esquemes provoca un col·lapse de la cobertura del 86% en esquemes simples al 3% en els complexos; XGrammar emet silenciosament 38 sortides no conformes i cap entorn cobreix les 45 categories de funcions de JSON Schema.

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.