85 entrades etiquetades amb "Machine Learning"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

WildToolBench (ICLR 2026) avalua 57 LLM en 1.024 tasques extretes del comportament real dels usuaris — cap model supera el 15% de precisió de sessió, sent l'orquestració compositiva, la intenció oculta i les transicions d'instruccions els tres modes de fallada més acusats.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

JSONSchemaBench avalua 9.558 esquemes JSON del món real amb sis entorns de descodificació restringida i conclou que la complexitat dels esquemes provoca un col·lapse de la cobertura del 86% en esquemes simples al 3% en els complexos; XGrammar emet silenciosament 38 sortides no conformes i cap entorn cobreix les 45 categories de funcions de JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinMCP-Bench avalua sis models LLM en 613 tasques reals d'ús d'eines financeres amb el suport de 65 servidors MCP: el millor model obté un 3,08% de coincidència exacta en tasques de múltiples torns, revelant un col·lapse del rendiment de 20 vegades des d'escenaris d'una sola eina a múltiples torns.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Un calibratge en temps d'inferència sense entrenament resta el biaix posicional dels pesos d'atenció de l'LLM, recuperant fins a 15 punts percentuals de precisió en RAG quan els documents recuperats estan enterrats al mig del context, i què significa això per als fluxos de treball d'agents financers.

Tot Sobre Machine Learning

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal