Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers
PHANTOM (NeurIPS 2025) est le premier benchmark mesurant la détection d'hallucinations par les LLM sur de réels dépôts SEC avec des longueurs de contexte allant jusqu'à 30 000 tokens. Qwen3-30B-A3B-Thinking arrive en tête avec un F1=0,882 ; les modèles 7B obtiennent des scores proches du hasard — avec des implications directes pour les agents comptables autonomes.
Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers
FinMaster (arXiv:2505.13533) évalue o3-mini, Claude 3.7 Sonnet et DeepSeek-V3 sur 183 tâches financières — révélant que les modèles atteignent 96 % en littératie financière mais s'effondrent à 3 % pour la génération d'états financiers, avec une perte de 21 points de précision due à la propagation d'erreurs dans les tâches de conseil multi-étapes.
ReAct : Synergie du raisonnement et de l'action dans les modèles de langage
ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.