ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.
OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.
Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.
FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.
L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.
AD-LLM compare GPT-4o et Llama 3.1 8B sur trois rôles de détection d'anomalies — détecteur zero-shot, moteur d'augmentation de données et conseiller en sélection de modèle — sur cinq jeux de données NLP ; GPT-4o atteint un AUROC de 0,93–0,99 en zero-shot, mais la sélection de modèle basée sur les LLM reste peu fiable, avec des implications directes pour l'IA d'audit financier.
CausalTAD améliore la détection d'anomalies tabulaires basée sur les LLM en réordonnant les colonnes du tableau pour respecter les dépendances causales avant la sérialisation, faisant passer l'AUC-ROC moyenne de 0,803 à 0,834 par rapport à AnoLLM sur des benchmarks de types mixtes — avec des implications directes pour la détection d'anomalies dans les données de grand livre structurées.
AnoLLM (ICLR 2025) reformule la détection d'anomalies tabulaires comme une estimation de densité par LLM — un fine-tuning sur des lignes normales et un score par vraisemblance logarithmique négative (NLL). Il surpasse les méthodes classiques sur des ensembles de données de fraude à types mixtes, mais n'offre aucun avantage sur les données purement numériques, avec des implications concrètes pour la détection d'anomalies dans les écritures comptables Beancount.
Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.