Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers

PHANTOM (NeurIPS 2025) est le premier benchmark mesurant la détection d'hallucinations par les LLM sur de réels dépôts SEC avec des longueurs de contexte allant jusqu'à 30 000 tokens. Qwen3-30B-A3B-Thinking arrive en tête avec un F1=0,882 ; les modèles 7B obtiennent des scores proches du hasard — avec des implications directes pour les agents comptables autonomes.

llm

machine-learning

April 18, 2026·mike

Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers

FinMaster (arXiv:2505.13533) évalue o3-mini, Claude 3.7 Sonnet et DeepSeek-V3 sur 183 tâches financières — révélant que les modèles atteignent 96 % en littératie financière mais s'effondrent à 3 % pour la génération d'états financiers, avec une perte de 21 points de précision due à la propagation d'erreurs dans les tâches de conseil multi-étapes.

llm

accounting

April 17, 2026·mike

ReAct : Synergie du raisonnement et de l'action dans les modèles de langage

ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.

llm

machine-learning

Affichage de 85–87 sur 87 articles

Préc.8 / 8