4 entrades etiquetades amb "Open Source"

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer

El GPT-4 completa només el 14,41% de les 812 tasques web realistes de WebArena mentre que els humans arriben al 78,24%; el mode de fallada dominant és la falsa inviabilitat —rebuig conservador a actuar— amb implicacions directes per a qualsevol agent que operi Fava o interfícies web financeres.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada

SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.

Tot Sobre Open Source

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal