Mike Thrift
Marketing Manager
OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance
OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.
Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités
Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.
FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier
FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.
Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière
L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.
Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles
AD-LLM compare GPT-4o et Llama 3.1 8B sur trois rôles de détection d'anomalies — détecteur zero-shot, moteur d'augmentation de données et conseiller en sélection de modèle — sur cinq jeux de données NLP ; GPT-4o atteint un AUROC de 0,93–0,99 en zero-shot, mais la sélection de modèle basée sur les LLM reste peu fiable, avec des implications directes pour l'IA d'audit financier.
CausalTAD : Ordonnancement causal des colonnes pour la détection d'anomalies tabulaires par LLM
CausalTAD améliore la détection d'anomalies tabulaires basée sur les LLM en réordonnant les colonnes du tableau pour respecter les dépendances causales avant la sérialisation, faisant passer l'AUC-ROC moyenne de 0,803 à 0,834 par rapport à AnoLLM sur des benchmarks de types mixtes — avec des implications directes pour la détection d'anomalies dans les données de grand livre structurées.
AnoLLM : Fine-Tuning de LLM pour la détection d'anomalies tabulaires dans les données financières
AnoLLM (ICLR 2025) reformule la détection d'anomalies tabulaires comme une estimation de densité par LLM — un fine-tuning sur des lignes normales et un score par vraisemblance logarithmique négative (NLL). Il surpasse les méthodes classiques sur des ensembles de données de fraude à types mixtes, mais n'offre aucun avantage sur les données purement numériques, avec des implications concrètes pour la détection d'anomalies dans les écritures comptables Beancount.
Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy
Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.
TableMaster : Raisonnement adaptatif pour la compréhension de tableaux avec les LLM
TableMaster est un pipeline basé uniquement sur le prompting qui atteint 78,13 % sur WikiTQ avec GPT-4o-mini — soit 13 points de plus que Chain-of-Table — en combinant l'extraction de tableaux ciblés, la verbalisation sémantique et le basculement adaptatif entre raisonnement textuel et symbolique. Voici ce que cette architecture signifie pour les agents IA exploitant des grands livres financiers comme Beancount.
Détection d'anomalies Zero-Shot avec les LLM : performances de GPT-4 sur les données tabulaires
GPT-4 atteint une AUROC moyenne de 74,1 sur le benchmark ODDS sans réglage fin — égalant presque la référence classique ECOD à 75,5 — mais échoue sur les anomalies multidimensionnelles et les ensembles de données à forte variance ; un examen critique de la détection d'anomalies zero-shot par LLM et ses implications pour l'audit automatisé des registres Beancount.
DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC
DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.
TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles
TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.