Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench : mesurer le coût du double contrôle dans les agents IA conversationnels

τ²-bench étend l'évaluation des agents aux environnements à double contrôle où l'IA et l'utilisateur invoquent tous deux des outils sur un état partagé — révélant que les utilisateurs actifs réduisent les taux de réussite de 18 à 25 points de pourcentage, avec des implications directes pour les agents Beancount partageant l'accès en écriture avec des utilisateurs humains.

llm

automation

June 17, 2026·mike

WorkArena++ : L'écart de 93 % entre les performances humaines et celles des agents IA sur les tâches d'entreprise compositionnelles

WorkArena++ (NeurIPS 2024) évalue 682 tâches d'entreprise compositionnelles sur trois niveaux de difficulté. GPT-4o en résout 2,1 % tandis que les humains en résolvent 93,9 %, isolant précisément pourquoi les agents IA actuels échouent dans le travail de la connaissance à buts implicites et pourquoi cet écart est crucial pour l'automatisation comptable autonome.

llm

automation

June 16, 2026·mike

Benchmark GAIA : Mesurer ce que les agents IA de pointe peuvent réellement faire

GAIA évalue 466 tâches du monde réel sur trois niveaux de difficulté ; les agents de pointe ont atteint 74,55 % à la mi-2026 contre 92 % pour les humains, et l'écart restant au niveau 3 correspond directement aux défis de coordination multi-étapes dans les flux de travail automatisés du grand livre Beancount.

llm

machine-learning

June 15, 2026·mike

OSWorld : les agents IA de bureau réussissent 12 % des tâches là où les humains en réussissent 72 %

OSWorld (NeurIPS 2024) évalue les agents IA multimodaux sur 369 tâches réelles sur Ubuntu, Windows et macOS — révélant un écart de 60 points de pourcentage entre le meilleur modèle (12,24 %) et la performance humaine (72,36 %), avec 75 % des échecs dus à des erreurs d'ancrage visuomoteur plutôt qu'à des défauts de raisonnement.

machine-learning

automation

June 14, 2026·mike

WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire

GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.

llm

automation

June 13, 2026·mike

WorkArena : comment les agents Web LLM se comportent face au travail de connaissance réel en entreprise

WorkArena évalue les agents Web LLM sur 33 tâches ServiceNow réelles — GPT-4o atteint 42,7 % globalement mais 0 % sur les tâches de filtrage de liste, révélant un fossé entre le remplissage de formulaires et l'interaction avec des interfaces structurées, ce qui renvoie directement aux défis de l'automatisation des registres Beancount.

llm

automation

June 12, 2026·mike

τ-bench : Mesurer la fiabilité des agents IA dans des domaines réels d'utilisation d'outils

τ-bench montre que les meilleurs LLM comme Claude 3.5 Sonnet chutent d'un pass@1 de 0,692 à un pass@4 de 0,462 dans les tâches de service client de détail — une chute de cohérence brutale avec des implications directes pour tout agent d'écriture opérant sur un grand livre Beancount.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table : Évolution des tableaux dans la chaîne de raisonnement des LLM

Chain-of-Table (ICLR 2024) améliore le raisonnement tabulaire des LLM en faisant évoluer le tableau lui-même en tant qu'état intermédiaire — atteignant 67,31 % sur WikiTQ contre 61,48 % pour les références précédentes, avec un avantage de +10,25 points sur les tableaux dépassant 4 000 jetons et une applicabilité directe aux agents de requête de grand livre Beancount.

llm

machine-learning

June 10, 2026·mike

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.

llm

machine-learning

June 9, 2026·mike

TAPAS : Table QA supervisé de manière faible sans SQL, et ce que cela signifie pour Beancount

TAPAS (Google Research, ACL 2020) répond aux questions sur les tableaux en sélectionnant des cellules et en appliquant des agrégations scalaires — sans génération de SQL. Cet article analyse l'architecture, son gain de précision SQA de 12 points, et pourquoi le paradigme de sélection de cellules convient aux requêtes de petits registres Beancount mais échoue à grande échelle.

machine-learning

llm

June 8, 2026·mike

MAC-SQL : Collaboration Multi-Agents pour le Text-to-SQL

MAC-SQL (COLING 2025) utilise trois agents spécialisés — Selector pour la réduction de schéma, Decomposer pour la décomposition des questions et Refiner pour la correction SQL guidée par l'exécution — pour atteindre une précision d'exécution de 59,59 % sur le benchmark BIRD ; l'ablation montre que le Refiner contribue le plus (+4,63 points), avec des implications directes pour la génération de requêtes de grand livre Beancount.

machine-learning

database

June 7, 2026·mike

DIN-SQL : Apprentissage en contexte décomposé pour le Text-to-SQL

DIN-SQL (NeurIPS 2023) décompose le text-to-SQL en étapes de liaison de schéma, de classification de la complexité et de génération SQL, faisant passer l'exactitude d'exécution de GPT-4 de 67,4 % à 85,3 % sur Spider sans fine-tuning — et cette même stratégie de décomposition s'applique directement aux interfaces en langage naturel pour le langage de requête BQL de Beancount.

llm

database

Affichage de 25–36 sur 87 articles

Préc.3 / 8Suiv.