Aller au contenu principal
Developers

Tout sur Developers

7 articles
Developer resources, APIs, and integration documentation for finance tools

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

ShieldAgent : Raisonnement vérifiable sur les politiques de sécurité pour les agents LLM

ShieldAgent (ICML 2025) remplace les garde-fous basés sur les LLM par des circuits de règles probabilistes s'appuyant sur des réseaux logiques de Markov, atteignant une précision de 90,4 % sur les attaques d'agents avec 64,7 % d'appels API en moins — et ce que cela signifie pour la sécurité vérifiable dans les systèmes d'IA financière.

Fine-Tuning vs RAG : Pourquoi la récupération l'emporte pour l'injection de nouvelles connaissances dans les LLM

Une comparaison empirique entre le RAG et l'ajustement fin non supervisé sur des LLM de 7 milliards de paramètres montre que le RAG atteint une précision de plus de 0,875 sur les faits postérieurs à la date de coupure, alors que l'ajustement fin plafonne à 0,504 — avec des implications directes pour la conception d'agents Beancount et tout système nécessitant des mises à jour fréquentes des connaissances.

Gorilla : Comment le Retrieval-Aware Training réduit les hallucinations d'API des LLM de 78 % à 11 %

Gorilla (Patil et al., NeurIPS 2024) affine un modèle LLaMA 7B avec le Retriever-Aware Training sur la documentation d'API récupérée, réduisant les taux d'hallucination de 78 % à 11 % par rapport à GPT-4 en zero-shot — avec des implications directes pour les agents d'écriture IA en finance où les noms de comptes erronés ou les signes inversés sont des échecs d'exactitude, et non de simples désagréments.

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.

SWE-bench : Les modèles de langage peuvent-ils résoudre des problèmes GitHub réels ?

SWE-bench évalue les modèles de langage sur 2 294 problèmes GitHub réels répartis dans 12 dépôts Python à l'aide de tests basés sur l'exécution ; lors de la publication, Claude 2 n'a résolu que 1,96 % des problèmes avec une recherche réaliste, établissant la référence de facto pour les agents de codage et révélant des modes d'échec de recherche et de longueur de correctif directement pertinents pour les agents d'écriture Beancount.

Toolformer : Utilisation d'outils auto-supervisée et ses limites pour l'IA financière

Une lecture attentive de Toolformer (Meta AI, NeurIPS 2023) : comment l'entraînement auto-supervisé filtré par la perplexité apprend à un modèle de 6,7 milliards de paramètres à appeler des API externes, où il surpasse GPT-3 175B sur les tests d'arithmétique, et pourquoi son architecture à étape unique ne peut pas prendre en charge les appels d'outils en chaîne requis pour les opérations de comptabilité structurée.