Aller au contenu principal
Open Source

Tout sur Open Source

4 articles
Open-source tools, frameworks, and research artifacts for financial AI

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire

GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.