8 articles tagués avec « Analytics »

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Étude sur la détection d'anomalies par LLM (NAACL 2025) : Une taxonomie robuste, une couverture tabulaire absente

Une lecture critique de l'étude de Xu et Ding (NAACL 2025) sur la détection d'anomalies et d'OOD basée sur les LLM : si la taxonomie détection-vs-génération est pertinente, l'absence quasi totale de couverture des données tabulaires oblige les praticiens de l'IA financière à synthétiser eux-mêmes les enseignements issus des modèles de vision.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités

Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière

L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles

AD-LLM compare GPT-4o et Llama 3.1 8B sur trois rôles de détection d'anomalies — détecteur zero-shot, moteur d'augmentation de données et conseiller en sélection de modèle — sur cinq jeux de données NLP ; GPT-4o atteint un AUROC de 0,93–0,99 en zero-shot, mais la sélection de modèle basée sur les LLM reste peu fiable, avec des implications directes pour l'IA d'audit financier.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

τ-bench montre que les meilleurs LLM comme Claude 3.5 Sonnet chutent d'un pass@1 de 0,692 à un pass@4 de 0,462 dans les tâches de service client de détail — une chute de cohérence brutale avec des implications directes pour tout agent d'écriture opérant sur un grand livre Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains

ConvFinQA (EMNLP 2022) étend FinQA à la conversation multi-tours sur les rapports de résultats du S&P 500, révélant que le meilleur modèle affiné atteint une précision d'exécution de 68,9 % contre 89,4 % pour les experts humains — et tombe à 52,4 % lors de conversations hybrides multi-aspects où les modèles doivent transporter le contexte numérique à travers différents sujets financiers.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench : Pourquoi le RAG avec base de données vectorielle échoue sur les documents financiers réels

FinanceBench évalue 16 configurations d'IA par rapport à 10 231 questions issues de dépôts réels de la SEC ; le RAG avec base de données vectorielle partagée ne répond correctement que dans 19 % des cas, et même GPT-4-Turbo avec le passage oracle n'atteint que 85 % de précision — montrant que le raisonnement numérique, et non la récupération, est la contrainte limitante pour l'IA financière en entreprise.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée

L'auto-cohérence remplace le décodage glouton de la chaîne de pensée par un vote majoritaire sur N chemins de raisonnement échantillonnés — augmentant la précision de GPT-3 sur GSM8K de 17,9 points de pourcentage sans aucun réglage fin — et s'applique directement aux calculs financiers en plusieurs étapes où un seul décodage LLM n'est pas fiable.

Tout sur Analytics

Étude sur la détection d'anomalies par LLM (NAACL 2025) : Une taxonomie robuste, une couverture tabulaire absente

Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités

Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière

Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains

FinanceBench : Pourquoi le RAG avec base de données vectorielle échoue sur les documents financiers réels

Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales