4 berichten getagd met "Open Source"

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen

GPT-4 voltooit slechts 14,41% van de 812 realistische webtaken van WebArena, terwijl mensen 78,24% halen; de dominante foutmodus is foutieve onuitvoerbaarheid — een conservatieve weigering om te handelen — met directe gevolgen voor elke agent die Fava of financiële web-UI's bedient.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.

Alles Over Open Source

OpenHands: Open Platform voor AI Software Agents en wat het betekent voor Financiële Automatisering

WebArena: De 812-Taken Benchmark die Meet wat Web-agents Werkelijk Wel en Niet Kunnen

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch