40 entrades etiquetades amb "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

WildToolBench (ICLR 2026) avalua 57 LLM en 1.024 tasques extretes del comportament real dels usuaris — cap model supera el 15% de precisió de sessió, sent l'orquestració compositiva, la intenció oculta i les transicions d'instruccions els tres modes de fallada més acusats.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Un calibratge en temps d'inferència sense entrenament resta el biaix posicional dels pesos d'atenció de l'LLM, recuperant fins a 15 punts percentuals de precisió en RAG quan els documents recuperats estan enterrats al mig del context, i què significa això per als fluxos de treball d'agents financers.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.

Tot Sobre Data Science

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal