8 entrades etiquetades amb "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Una lectura crítica de l'enquesta de Xu i Ding per a la NAACL 2025 sobre la detecció d'anomalies i OOD basada en LLM: la taxonomia detecció-vs-generació es manté, però l'absència gairebé total de cobertura tabular significa que els professionals de la IA financera han de sintetitzar els coneixements dels models de visió ells mateixos.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot

AD-LLM avalua GPT-4o i Llama 3.1 8B en tres rols de detecció d'anomalies —detector zero-shot, augmentador de dades i selector de models— en cinc conjunts de dades de PNL; GPT-4o arriba a un AUROC de 0,93–0,99 zero-shot, però la selecció de models basada en LLM continua sent poc fiable, amb implicacions directes per a la IA d'auditoria financera.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real

τ-bench mostra que els millors LLM com Claude 3.5 Sonnet cauen d'un pass@1 de 0,692 a un pass@4 de 0,462 en tasques d'atenció al client minorista — un penya-segat de consistència amb implicacions directes per a qualsevol agent d'escriptura que operi en un llibre major de Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Per què el RAG de magatzem de vectors falla en documents financers reals

FinanceBench avalua 16 configuracions d'IA amb 10.231 preguntes de documents reals de la SEC; el RAG de magatzem de vectors compartit respon correctament només el 19% de les vegades, i fins i tot GPT-4-Turbo amb el fragment d'oracle arriba només al 85% de precisió, cosa que demostra que el raonament numèric, i no la recuperació, és el factor limitant per a la IA en les finances empresarials.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament

L'auto-consistència substitueix la descodificació voraç de la cadena de pensament per una votació majoritària sobre N rutes de raonament mostrejades —millorant la precisió de GPT-3 a GSM8K en 17,9 punts percentuals sense cap ajust fi— i s'aplica directament als càlculs financers de diversos passos on una única descodificació de LLM no és fiable.

Tot Sobre Analytics

Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot

τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

FinanceBench: Per què el RAG de magatzem de vectors falla en documents financers reals

Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal