12 entrades etiquetades amb "Financial Reporting"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

FinAuditing posa a prova 13 LLM en format zero-shot sobre 1.102 instàncies reals de presentacions SEC XBRL; les puntuacions més altes són del 13,86% en verificació matemàtica financera i del 12,42% en recuperació de conceptes — resultats que limiten directament el que es pot confiar a les eines de comptabilitat d'IA sense eines externes.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers

TAT-LLM ajusta LLaMA 2 7B amb LoRA en referents de preguntes i respostes de taules i textos financers, assolint un 64,60% d'EM a FinQA —superant el 63,91% de GPT-4— mitjançant la descomposició del raonament en passos deterministes d'Extracció-Raonament-Execució que eliminen els errors aritmètics.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA: El referent per mesurar el raonament numèric de la IA en informes financers

FinQA (EMNLP 2021) va crear 8.281 parells de preguntes i respostes d'informes de resultats de l'S&P 500 que requerien programes aritmètics de diversos passos. Els models neuronals van obtenir un 61% de puntuació en el llançament enfront del 91% dels experts humans; la precisió cau al 22% en programes de tres o més passos. Els modes de fallada —constants de domini, vinculació entre modalitats, longitud de la cadena— es relacionen directament amb els reptes que afronten avui els agents de Beancount.

Tot Sobre Financial Reporting

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

FinQA: El referent per mesurar el raonament numèric de la IA en informes financers

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal