Aller au contenu principal
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Voir tous les auteurs

PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers
·mike

PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers

PHANTOM (NeurIPS 2025) est le premier benchmark mesurant la détection d'hallucinations par les LLM sur de réels dépôts SEC avec des longueurs de contexte allant jusqu'à 30 000 tokens. Qwen3-30B-A3B-Thinking arrive en tête avec un F1=0,882 ; les modèles 7B obtiennent des scores proches du hasard — avec des implications directes pour les agents comptables autonomes.

llm
ai
machine-learning
finance
+4
Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers
·mike

Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers

FinMaster (arXiv:2505.13533) évalue o3-mini, Claude 3.7 Sonnet et DeepSeek-V3 sur 183 tâches financières — révélant que les modèles atteignent 96 % en littératie financière mais s'effondrent à 3 % pour la génération d'états financiers, avec une perte de 21 points de précision due à la propagation d'erreurs dans les tâches de conseil multi-étapes.

llm
accounting
ai
financial-statements
+3
ReAct : Synergie du raisonnement et de l'action dans les modèles de langage
·mike

ReAct : Synergie du raisonnement et de l'action dans les modèles de langage

ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.

ai
llm
machine-learning
automation
+3
Affichage de 85–87 sur 87 articles
Préc.8 / 8