Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

open-source

automation

June 29, 2026·mike

Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités

Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.

llm

machine-learning

June 28, 2026·mike

FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier

FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.

llm

machine-learning

June 27, 2026·mike

Perdu au milieu : le biais de position dans les LLM et son impact sur l'IA financière

L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.

llm

machine-learning

June 26, 2026·mike

Benchmark AD-LLM : GPT-4o atteint un AUROC de 0,93+ en Zero-Shot pour la détection d'anomalies textuelles

AD-LLM compare GPT-4o et Llama 3.1 8B sur trois rôles de détection d'anomalies — détecteur zero-shot, moteur d'augmentation de données et conseiller en sélection de modèle — sur cinq jeux de données NLP ; GPT-4o atteint un AUROC de 0,93–0,99 en zero-shot, mais la sélection de modèle basée sur les LLM reste peu fiable, avec des implications directes pour l'IA d'audit financier.

llm

machine-learning

June 25, 2026·mike

CausalTAD : Ordonnancement causal des colonnes pour la détection d'anomalies tabulaires par LLM

CausalTAD améliore la détection d'anomalies tabulaires basée sur les LLM en réordonnant les colonnes du tableau pour respecter les dépendances causales avant la sérialisation, faisant passer l'AUC-ROC moyenne de 0,803 à 0,834 par rapport à AnoLLM sur des benchmarks de types mixtes — avec des implications directes pour la détection d'anomalies dans les données de grand livre structurées.

llm

machine-learning

June 24, 2026·mike

AnoLLM : Fine-Tuning de LLM pour la détection d'anomalies tabulaires dans les données financières

AnoLLM (ICLR 2025) reformule la détection d'anomalies tabulaires comme une estimation de densité par LLM — un fine-tuning sur des lignes normales et un score par vraisemblance logarithmique négative (NLL). Il surpasse les méthodes classiques sur des ensembles de données de fraude à types mixtes, mais n'offre aucun avantage sur les données purement numériques, avec des implications concrètes pour la détection d'anomalies dans les écritures comptables Beancount.

llm

machine-learning

June 23, 2026·mike

Les LLM obtiennent un score de 2,3 % sur la génération du DSL Beancount : le benchmark LLMFinLiteracy

Le benchmark LLMFinLiteracy révèle que cinq modèles à poids ouverts de ~7B paramètres ne génèrent des transactions Beancount entièrement correctes que dans 2,3 % des cas, les échecs se concentrant sur le raisonnement comptable — et non sur la syntaxe — ce qui désigne le retour d'information du compilateur comme l'ingrédient critique manquant pour des agents d'écriture fiables.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster : Raisonnement adaptatif pour la compréhension de tableaux avec les LLM

TableMaster est un pipeline basé uniquement sur le prompting qui atteint 78,13 % sur WikiTQ avec GPT-4o-mini — soit 13 points de plus que Chain-of-Table — en combinant l'extraction de tableaux ciblés, la verbalisation sémantique et le basculement adaptatif entre raisonnement textuel et symbolique. Voici ce que cette architecture signifie pour les agents IA exploitant des grands livres financiers comme Beancount.

llm

machine-learning

June 21, 2026·mike

Détection d'anomalies Zero-Shot avec les LLM : performances de GPT-4 sur les données tabulaires

GPT-4 atteint une AUROC moyenne de 74,1 sur le benchmark ODDS sans réglage fin — égalant presque la référence classique ECOD à 75,5 — mais échoue sur les anomalies multidimensionnelles et les ensembles de données à forte variance ; un examen critique de la détection d'anomalies zero-shot par LLM et ses implications pour l'audit automatisé des registres Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC

DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany : Évaluation des agents LLM sur des tâches d'entreprise en conditions réelles

TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.

llm

automation

Affichage de 13–24 sur 87 articles

Préc.2 / 8Suiv.