Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.

llm

automation

April 30, 2026·mike

SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?

SWE-bench évalue les modèles de langage sur 2 294 problèmes GitHub réels répartis dans 12 dépôts Python à l'aide de tests basés sur l'exécution ; lors de la publication, Claude 2 n'a résolu que 1,96 % des problèmes avec une recherche réaliste, établissant la référence de facto pour les agents de codage et révélant des modes d'échec de recherche et de longueur de correctif directement pertinents pour les agents d'écriture Beancount.

llm

machine-learning

April 29, 2026·mike

CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis

CodeAct (ICML 2024) remplace l'appel d'outils JSON par du code Python exécutable, améliorant les taux de réussite des agents GPT-4 d'environ 20 points de pourcentage sur les tâches multi-outils et réduisant les tours d'interaction de 30 % — avec des implications directes pour la création d'agents de rapprochement Beancount fiables.

llm

automation

April 28, 2026·mike

Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance

Huang et al. (ICLR 2024) démontrent que les LLM invités à réviser leur propre raisonnement sans retour externe dégradent systématiquement leur précision — GPT-4 passe de 95,5 % à 91,5 % sur GSM8K — et ce que cela signifie pour la conception d'agents fiables de saisie de journaux Beancount.

llm

machine-learning

April 27, 2026·mike

Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM

Tree of Thoughts (ToT) atteint un taux de réussite de 74 % sur le Jeu de 24, contre 4 % pour le CoT standard de GPT-4, en organisant le raisonnement du LLM en un arbre de recherche ramifié avec élagage et retour en arrière — avec des implications directes pour la classification financière multi-étapes et l'optimisation fiscale dans les flux de travail Beancount.

llm

machine-learning

April 26, 2026·mike

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.

llm

machine-learning

April 25, 2026·mike

Reflexion : Des agents de langage qui apprennent de leurs erreurs sans réentraînement

Reflexion (NeurIPS 2023) permet aux agents LLM de s'améliorer en stockant des analyses post-mortem verbales dans un tampon épisodique — sans mise à jour des poids. Il atteint 91 % sur HumanEval avec GPT-4 mais échoue sur WebShop, révélant une contrainte structurelle : le renforcement verbal ne fonctionne que lorsque l'évaluateur produit un signal clair et exploitable. Voici ce que cela signifie pour la création d'un agent de grand livre Beancount autocorrecteur.

llm

machine-learning

April 24, 2026·mike

Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée

L'auto-cohérence remplace le décodage glouton de la chaîne de pensée par un vote majoritaire sur N chemins de raisonnement échantillonnés — augmentant la précision de GPT-3 sur GSM8K de 17,9 points de pourcentage sans aucun réglage fin — et s'applique directement aux calculs financiers en plusieurs étapes où un seul décodage LLM n'est pas fiable.

llm

machine-learning

April 23, 2026·mike

PAL : Modèles de langage assistés par programme pour une arithmétique financière fiable

PAL (Program-Aided Language Models) obtient un gain de précision de +38 points de pourcentage par rapport à la chaîne de pensée sur des tâches à forte intensité arithmétique en déléguant le calcul à un interpréteur Python — une architecture directement applicable pour des requêtes fiables sur les grands livres Beancount et l'IA financière.

llm

machine-learning

April 22, 2026·mike

Les LLM peuvent-ils raisonner sur des données tabulaires ? Ce que quatre benchmarks nous disent sur l'IA financière

Quatre benchmarks 2024–2025 montrent que GPT-4 obtient un score de 42 % sur les questions-réponses de tableaux réels contre 86 % pour les humains, avec des agrégations complexes chutant à 19,6 % — et la syntaxe native de Beancount se situe au bas de la hiérarchie de sérialisation pour les entrées LLM.

llm

beancount

April 21, 2026·mike

IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting

L'article d'Anthropic sur l'IA constitutionnelle (Bai et al., 2022) forme les LLM à suivre des règles en utilisant des retours générés par l'IA plutôt que des étiquettes de préjudice humain. Ce journal de recherche examine comment le pipeline critique-révision-préférence de la RLAIF s'applique à la sécurité de l'écriture pour les agents autonomes du grand livre Beancount — et à quoi ressemblent le Goodharting, les échecs de calibration et les risques de double usage lorsque la « constitution » est un plan comptable au lieu d'un ensemble de règles éthiques.

machine-learning

llm

April 20, 2026·mike

Prompting Chain-of-Thought : Compromis Précision-Rappel pour l'IA en Finance

Une lecture attentive de l'article de 2022 de Wei et al. sur la chaîne de pensée (Chain-of-Thought) et ses implications pour l'IA financière — pourquoi la CoT augmente la précision mais peut réduire le rappel lors de la détection d'événements rares, pourquoi le seuil d'échelle est crucial pour les agents en production, et les points de vigilance pour une équipe financière s'appuyant sur les LLM.

llm

machine-learning

Affichage de 73–84 sur 87 articles

Préc.7 / 8Suiv.