4 articles tagués avec « Open Source »

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire

GPT-4 ne réalise que 14,41 % des 812 tâches web réalistes de WebArena, tandis que les humains atteignent 78,24 % ; le mode d'échec dominant est la fausse infaisabilité — un refus conservateur d'agir — avec des implications directes pour tout agent exploitant Fava ou des interfaces web financières.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

TableLlama affine Llama 2 (7B) sur 2,6 millions d'exemples de tâches liées aux tableaux et surpasse GPT-4 sur les tâches structurelles telles que l'annotation de type de colonne (F1 94 contre 32), mais reste en retrait de 33 points sur le raisonnement compositionnel WikiTQ — un benchmark calibré sur ce que les modèles ouverts 7B peuvent et ne peuvent pas accomplir dans l'IA financière aujourd'hui.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

SWE-agent (NeurIPS 2024) introduit les interfaces agent-ordinateur (ACI) — des couches logicielles conçues sur mesure entre les LLMs et les environnements de développement — montrant une amélioration de 10,7 points de pourcentage par rapport à l'accès shell brut et une résolution de 12,47 % sur SWE-bench avec GPT-4 Turbo. La conception de l'interface, et non la capacité du modèle, est le principal goulot d'étranglement pour les agents de codage autonomes.

Tout sur Open Source

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

WebArena : le benchmark de 812 tâches qui mesure ce que les agents web peuvent et ne peuvent pas réellement faire

TableLlama : un modèle ouvert de 7B peut-il égaler GPT-4 en compréhension de tableaux ?

SWE-agent : comment la conception d'interface libère l'ingénierie logicielle automatisée

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales