Mike Thrift
Marketing Manager
SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée
SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.
SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?
SWE-bench évalue les modèles de langage sur 2 294 problèmes GitHub réels répartis dans 12 dépôts Python à l'aide de tests basés sur l'exécution ; lors de la publication, Claude 2 n'a résolu que 1,96 % des problèmes avec une recherche réaliste, établissant la référence de facto pour les agents de codage et révélant des modes d'échec de recherche et de longueur de correctif directement pertinents pour les agents d'écriture Beancount.
CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis
CodeAct (ICML 2024) remplace l'appel d'outils JSON par du code Python exécutable, améliorant les taux de réussite des agents GPT-4 d'environ 20 points de pourcentage sur les tâches multi-outils et réduisant les tours d'interaction de 30 % — avec des implications directes pour la création d'agents de rapprochement Beancount fiables.
Les LLM ne peuvent pas encore s'autocorriger en matière de raisonnement — Constats de l'ICLR 2024 et implications pour l'IA en finance
Huang et al. (ICLR 2024) démontrent que les LLM invités à réviser leur propre raisonnement sans retour externe dégradent systématiquement leur précision — GPT-4 passe de 95,5 % à 91,5 % sur GSM8K — et ce que cela signifie pour la conception d'agents fiables de saisie de journaux Beancount.
Arbre de pensées : Résolution délibérée de problèmes avec la recherche LLM
Tree of Thoughts (ToT) atteint un taux de réussite de 74 % sur le Jeu de 24, contre 4 % pour le CoT standard de GPT-4, en organisant le raisonnement du LLM en un arbre de recherche ramifié avec élagage et retour en arrière — avec des implications directes pour la classification financière multi-étapes et l'optimisation fiscale dans les flux de travail Beancount.
CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes
CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.
Reflexion : Des agents de langage qui apprennent de leurs erreurs sans réentraînement
Reflexion (NeurIPS 2023) permet aux agents LLM de s'améliorer en stockant des analyses post-mortem verbales dans un tampon épisodique — sans mise à jour des poids. Il atteint 91 % sur HumanEval avec GPT-4 mais échoue sur WebShop, révélant une contrainte structurelle : le renforcement verbal ne fonctionne que lorsque l'évaluateur produit un signal clair et exploitable. Voici ce que cela signifie pour la création d'un agent de grand livre Beancount autocorrecteur.
Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée
L'auto-cohérence remplace le décodage glouton de la chaîne de pensée par un vote majoritaire sur N chemins de raisonnement échantillonnés — augmentant la précision de GPT-3 sur GSM8K de 17,9 points de pourcentage sans aucun réglage fin — et s'applique directement aux calculs financiers en plusieurs étapes où un seul décodage LLM n'est pas fiable.
PAL : Modèles de langage assistés par programme pour une arithmétique financière fiable
PAL (Program-Aided Language Models) obtient un gain de précision de +38 points de pourcentage par rapport à la chaîne de pensée sur des tâches à forte intensité arithmétique en déléguant le calcul à un interpréteur Python — une architecture directement applicable pour des requêtes fiables sur les grands livres Beancount et l'IA financière.
Les LLM peuvent-ils raisonner sur des données tabulaires ? Ce que quatre benchmarks nous disent sur l'IA financière
Quatre benchmarks 2024–2025 montrent que GPT-4 obtient un score de 42 % sur les questions-réponses de tableaux réels contre 86 % pour les humains, avec des agrégations complexes chutant à 19,6 % — et la syntaxe native de Beancount se situe au bas de la hiérarchie de sérialisation pour les entrées LLM.
IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting
L'article d'Anthropic sur l'IA constitutionnelle (Bai et al., 2022) forme les LLM à suivre des règles en utilisant des retours générés par l'IA plutôt que des étiquettes de préjudice humain. Ce journal de recherche examine comment le pipeline critique-révision-préférence de la RLAIF s'applique à la sécurité de l'écriture pour les agents autonomes du grand livre Beancount — et à quoi ressemblent le Goodharting, les échecs de calibration et les risques de double usage lorsque la « constitution » est un plan comptable au lieu d'un ensemble de règles éthiques.
Prompting Chain-of-Thought : Compromis Précision-Rappel pour l'IA en Finance
Une lecture attentive de l'article de 2022 de Wei et al. sur la chaîne de pensée (Chain-of-Thought) et ses implications pour l'IA financière — pourquoi la CoT augmente la précision mais peut réduire le rappel lors de la détection d'événements rares, pourquoi le seuil d'échelle est crucial pour les agents en production, et les points de vigilance pour une équipe financière s'appuyant sur les LLM.