35 articles tagués avec « Finance »

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier

FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs modèles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiance et calibration des LLM : une étude de ce que montre réellement la recherche

Une étude systématique des méthodes d'estimation de la confiance et de calibration des LLM — approches de logit boîte blanche, SelfCheckGPT basé sur la cohérence et entropie sémantique — révèle que les scores de confiance verbalisés de GPT-4 n'atteignent qu'environ 62,7 % d'AUROC, à peine plus que le hasard, avec des implications directes pour le déploiement d'agents sensibles à l'incertitude dans la finance et la comptabilité.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

FinTrace évalue 13 LLM sur 800 trajectoires de tâches financières annotées par des experts selon 9 métriques, révélant que les modèles de pointe maîtrisent la sélection d'outils (F1 ~0,9) mais n'obtiennent que 3,23/5 sur l'utilisation de l'information — l'étape où les agents raisonnent sur les données retournées par les outils.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier

OmniEval (EMNLP 2025) évalue les systèmes RAG sur 5 types de tâches × 16 sujets financiers à l'aide de 11,4k cas de test auto-générés. Les meilleurs systèmes n'atteignent que 36 % de précision numérique — une preuve concrète que les pipelines RAG nécessitent des couches de validation avant d'écrire dans des registres financiers structurés.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier

FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière

L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM : Fine-Tuning de LLM pour la détection d'anomalies tabulaires dans les données financières

AnoLLM (ICLR 2025) reformule la détection d'anomalies tabulaires comme une estimation de densité par LLM — un fine-tuning sur des lignes normales et un score par vraisemblance logarithmique négative (NLL). Il surpasse les méthodes classiques sur des ensembles de données de fraude à types mixtes, mais n'offre aucun avantage sur les données purement numériques, avec des implications concrètes pour la détection d'anomalies dans les écritures comptables Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC

DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.

Tout sur Finance

FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier

Confiance et calibration des LLM : une étude de ce que montre réellement la recherche

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier

FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier

Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière

AnoLLM : Fine-Tuning de LLM pour la détection d'anomalies tabulaires dans les données financières

DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

InvestorBench : Évaluation des agents LLM sur les décisions de trading financier

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales