35 entrades etiquetades amb "Finance"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

OmniEval (EMNLP 2025) avalua els sistemes RAG en 5 tipus de tasques × 16 temes financers utilitzant 11,4 mil casos de prova generats automàticament. Els millors sistemes només assoleixen un 36% de precisió numèrica — una prova concreta que els fluxos RAG necessiten capes de validació abans d'escriure en llibres comptables financers estructurats.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres

AnoLLM (ICLR 2025) reformula la detecció d'anomalies tabulars com una estimació de densitat d'LLM — ajustant el model amb files normals i puntuant mitjançant la log-versemblança negativa. Supera els mètodes clàssics en conjunts de dades de frau de tipus mixt, però no ofereix cap avantatge en dades purament numèriques, amb implicacions reals per detectar anomalies en les entrades del llibre major de Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera

InvestorBench (ACL 2025) avalua 13 backbones de LLM en la compravenda retroactiva d'accions, criptomonedes i ETF utilitzant el rendiment acumulat i la ràtio de Sharpe — no la precisió de les respostes. Qwen2.5-72B lidera la classificació d'accions amb un 46,15% de CR; els models ajustats per a finances fracassen en les accions. La mida del model prediu el rendiment amb més fiabilitat que l'ajust d'especialització de domini.

Tot Sobre Finance

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal