Aller au contenu principal

AnoLLM : Fine-Tuning de LLM pour la détection d'anomalies tabulaires dans les données financières

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

L'article sur la détection d'anomalies par LLM en zero-shot que j'ai lu il y a deux jours (arXiv:2406.16308) montrait que GPT-4 pouvait identifier des valeurs aberrantes tabulaires sans aucun entraînement, égalant les références classiques comme ECOD sur le benchmark ODDS. Mais il présentait une faiblesse évidente : demander au modèle de produire une liste d'indices de lignes anormales est fragile — les modèles open-source hallucinent régulièrement des indices, sortent des limites ou marquent chaque ligne comme suspecte. AnoLLM, publié à l'ICLR 2025 par Che-Ping Tsai, Ganyu Teng, Phillip Wallis et Wei Ding d'Amazon, corrige cette fragilité tout en s'aventurant dans des jeux de données à types mixtes où les références purement numériques commencent à peiner.

L'article

2026-06-24-anollm-llm-fine-tuning-tabular-anomaly-detection

AnoLLM reformule la détection d'anomalies tabulaires comme une estimation de densité de modèle de langage plutôt que comme une classification par prompt. Au lieu de demander au LLM de nommer les lignes qui semblent suspectes, les auteurs effectuent un fine-tuning d'un modèle de langage pré-entraîné sur des lignes d'entraînement sérialisées en distribution (normales), puis attribuent un score à chaque ligne de test en fonction de sa vraisemblance logarithmique négative (negative log-likelihood ou NLL) sous cette distribution apprise. Une ligne qui ne ressemble en rien à la distribution d'entraînement obtient une NLL élevée — c'est le score d'anomalie. Pas de format d'indice, pas d'analyse de sortie, pas d'extraction regex fragile.

La sérialisation convertit chaque ligne de tableau en une chaîne de caractères en langage naturel avec les noms et les valeurs des caractéristiques (features). Pour les colonnes de type texte, la NLL est normalisée par colonne afin d'éviter le biais de longueur, où des descriptions plus longues accumuleraient sinon mécaniquement des coûts de probabilité plus élevés. Pour les colonnes numériques et catégorielles, la NLL brute au niveau des jetons (tokens) est additionnée sur l'ensemble du champ. Le modèle est affiné dans un cadre semi-supervisé — seules les lignes étiquetées comme normales entrent dans l'entraînement — pendant jusqu'à 2 000 étapes en utilisant un entraînement GPU distribué.

Idées clés

  • Le problème du format de sortie : les approches antérieures de prédiction d'indices exigent que les LLM produisent de manière fiable des indices de lignes anormales à partir d'un lot. Les modèles de la famille Llama associent fréquemment des indices erronés à des valeurs, génèrent des indices dépassant la taille du lot, ou listent simplement tout comme anormal. La NLL contourne entièrement cela.
  • AnoLLM obtient les meilleures performances sur six jeux de données de référence avec des types de caractéristiques mixtes, notamment la détection de fraude à l'assurance automobile et des jeux de données de fraude e-commerce de Kaggle.
  • Sur les 30 jeux de données de référence ODDS majoritairement numériques, AnoLLM affiche des performances équivalentes aux meilleures références classiques — pas nettement meilleures, juste compétitives.
  • La normalisation de la NLL par colonne pour les caractéristiques textuelles est une décision technique mineure mais cruciale : sans elle, une description de transaction de trente jetons dominerait le score par rapport à un montant à deux chiffres, ce qui constitue un mauvais biais inductif.
  • Le contexte de la référence d'entraînement : l'approche GPT-4 zero-shot (arXiv:2406.16308) atteint une AUROC moyenne de 74,1 sur ODDS, comparable à ECOD (75,5) et KNN (70,7). L'avantage d'AnoLLM apparaît spécifiquement sur les jeux de données où les caractéristiques textuelles et catégorielles portent un signal d'anomalie significatif.

Ce qui tient la route — et ce qui ne la tient pas

L'idée centrale de la NLL est solide. Utiliser un modèle de langage affiné comme estimateur de densité sur des lignes sérialisées est rigoureux, et cela gère naturellement la distribution conjointe de toutes les colonnes simultanément — ce que les détecteurs non supervisés classiques appliqués colonne par colonne ne peuvent pas faire proprement. La correction de la prédiction d'indice est réellement utile et la comparaison avec la référence zero-shot est équitable.

Ce qui me dérange, c'est l'écart coût-bénéfice que l'article sous-estime. AnoLLM nécessite le fine-tuning et l'hébergement d'un LLM pour l'inférence — un engagement infrastructurel substantiel par rapport à l'ajustement d'un ECOD ou d'un IsolationForest sur un CPU en quelques secondes. Sur le benchmark ODDS (purement numérique), AnoLLM n'est qu'au "même niveau", pas meilleur. L'argument en faveur d'AnoLLM se situe donc entièrement dans le régime des types mixtes, où les six jeux de données évalués proviennent de la détection de fraude sur Kaggle. Six jeux de données constituent une base empirique mince pour une recommandation forte, d'autant plus que les jeux de données de référence de Kaggle ont tendance à avoir des schémas propres, une sémantique de colonne fixe et une vérité terrain connue — autant de choses qui font souvent défaut aux données comptables de production.

Le problème de l'ordre des colonnes reste également ouvert. CausalTAD (arXiv:2602.07798) a immédiatement identifié cette lacune : AnoLLM sérialise les colonnes dans un ordre arbitraire, ignorant les relations causales entre les champs. Pour les données structurées avec des chaînes causales connues — le type de compte influence les plages de transactions valides, qui influencent la contrepartie attendue — c'est une réelle limitation. CausalTAD formule le réordonnancement comme un problème d'ordonnancement linéaire et rapporte une amélioration constante par rapport à AnoLLM sur plus de 30 jeux de données. Le fait que cette lacune existait et ait pu être identifiée si rapidement suggère que la conception de la sérialisation d'AnoLLM n'était pas totalement aboutie.

Il y a aussi une question d'échelle que l'article n'aborde pas : à partir de quel volume d'exemples d'entraînement normaux le fine-tuning d'un LLM devient-il plus rentable qu'un modèle de deep learning tabulaire entraîné directement sur les caractéristiques numériques ? Pour les grands livres Beancount personnels comportant quelques milliers d'entrées, le coût de calcul peut facilement éclipser tout gain de précision.

Pourquoi cela compte pour l'IA financière

Les écritures d'un grand livre Beancount sont exactement le genre de données à types mixtes que cible AnoLLM : montants (numériques), noms de comptes (texte structuré), bénéficiaire/libellé (texte libre), étiquettes (catégorielles), dates (structurées). Une seule ligne comme 2024-03-15 * "AWS" "Facture Cloud" Assets:Checking -2400.00 USD encode des informations à travers tous ces types simultanément. Les détecteurs d'anomalies classiques peinent ici car ils nécessitent une gestion distincte pour chaque type de colonne et perdent les corrélations entre elles — le schéma conjoint selon lequel les factures "AWS" devraient se situer dans une certaine fourchette et affecter un compte spécifique.

L'approche NLL d'AnoLLM permettrait, en principe, d'apprendre ces schémas conjoints à partir des écritures historiques normales et de signaler les écarts sur n'importe quelle combinaison de colonnes. C'est potentiellement plus utile que des tests statistiques sur une seule colonne ou des règles JET.

Cela dit, la contrainte de la comptabilité en partie double est une connaissance structurelle qu'AnoLLM ne peut pas apprendre uniquement à partir de lignes sérialisées — les débits doivent être égaux aux crédits, les hiérarchies de comptes doivent être respectées. Ces invariants de domaine sont des contraintes strictes, pas des régularités statistiques, et aucun volume de fine-tuning de LLM sur des lignes historiques ne les fera respecter de manière fiable si les données d'entraînement contiennent des exceptions ou des artefacts d'arrondi. La bonne architecture combine probablement le score NLL d'AnoLLM pour les anomalies sémantiques avec des vérifications de règles explicites pour les anomalies structurelles.

Que lire ensuite

  • CausalTAD (arXiv:2602.07798) — améliore directement AnoLLM en injectant un ordonnancement causal des colonnes ; la suite la plus immédiate à évaluer.
  • AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — fournit l'évaluation systématique multi-paradigme qui manque aux articles sur les méthodes individuelles.
  • "Language Models are Realistic Tabular Data Generators" (Borisov et al., arXiv:2210.06280, ICLR 2023) — le modèle BE-GREAT qu'AnoLLM utilise comme base ; le comprendre permet d'éclaircir ce qu'AnoLLM améliore réellement au-delà de la prédiction d'indices.