Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Voir tous les auteurs

τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels
·mike

τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels

τ²-bench étend l'évaluation des agents aux environnements à double contrôle où l'IA et l'utilisateur invoquent tous deux des outils sur un état partagé — révélant que les utilisateurs actifs réduisent les taux de réussite de 18 à 25 points de pourcentage, avec des implications directes pour les agents Beancount partageant l'accès en écriture avec des utilisateurs humains.

ai
llm
automation
beancount
+2
WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles
·mike

WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles

WorkArena++ (NeurIPS 2024) évalue 682 tâches d'entreprise compositionnelles sur trois niveaux de difficulté. GPT-4o en résout 2,1 % tandis que les humains en résolvent 93,9 %, isolant précisément pourquoi les agents IA actuels échouent dans le travail de la connaissance à buts implicites et pourquoi cet écart est crucial pour l'automatisation comptable autonome.

ai
llm
automation
enterprise-software
+2
Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire
·mike

Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire

GAIA évalue 466 tâches du monde réel sur trois niveaux de difficulté ; les agents de pointe ont atteint 74,55 % à la mi-2026 contre 92 % pour les humains, et l'écart restant au niveau 3 correspond directement aux défis de coordination multi-étapes dans les flux de travail automatisés du grand livre Beancount.

ai
llm
machine-learning
automation
+3
OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %
·mike

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.

ai
machine-learning
automation
llm
+3
WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire
·mike

WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire

GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.

ai
llm
automation
machine-learning
+4
WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise
·mike

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.

ai
llm
automation
enterprise-software
+3
τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils
·mike

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

τ-bench montre que les meilleurs LLM comme Claude 3.5 Sonnet chutent d'un pass@1 de 0,692 à un pass@4 de 0,462 dans les tâches de service client de détail — une chute de cohérence brutale avec des implications directes pour tout agent d'écriture opérant sur un grand livre Beancount.

ai
llm
machine-learning
automation
+3
Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM
·mike

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

Chain-of-Table (ICLR 2024) améliore le raisonnement tabulaire des LLM en faisant évoluer le tableau lui-même en tant qu'état intermédiaire — atteignant 67,31 % sur WikiTQ contre 61,48 % pour les références précédentes, avec un avantage de +10,25 points sur les tableaux dépassant 4 000 jetons et une applicabilité directe aux agents de requête de grand livre Beancount.

ai
llm
machine-learning
beancount
+3
TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?
·mike

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.

llm
ai
machine-learning
beancount
+3
TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount
·mike

TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount

TAPAS (Google Research, ACL 2020) répond aux questions sur les tableaux en sélectionnant des cellules et en appliquant des agrégations scalaires — sans génération de SQL. Cet article analyse l'architecture, son gain de précision SQA de 12 points, et pourquoi le paradigme de sélection de cellules convient aux requêtes de petits registres Beancount mais échoue à grande échelle.

ai
machine-learning
llm
data-science
+4
MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL
·mike

MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL

MAC-SQL (COLING 2025) utilise trois agents spécialisés — Selector pour la réduction de schéma, Decomposer pour la décomposition des questions et Refiner pour la correction SQL guidée par l'exécution — pour atteindre une précision d'exécution de 59,59 % sur le benchmark BIRD ; l'ablation montre que le Refiner contribue le plus (+4,63 points), avec des implications directes pour la génération de requêtes de grand livre Beancount.

ai
machine-learning
database
queries
+3
DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL
·mike

DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL

DIN-SQL (NeurIPS 2023) décompose le text-to-SQL en étapes de liaison de schéma, de classification de la complexité et de génération SQL, faisant passer l'exactitude d'exécution de GPT-4 de 67,4 % à 85,3 % sur Spider sans fine-tuning — et cette même stratégie de décomposition s'applique directement aux interfaces en langage naturel pour le langage de requête BQL de Beancount.

ai
llm
database
queries
+3
Affichage de 25–36 sur 87 articles