4 Posts getaggt mit „Open Source“

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: Der Benchmark mit 812 Aufgaben, der misst, was Web-Agenten tatsächlich können und was nicht

GPT-4 schließt nur 14,41 % der 812 realistischen Web-Aufgaben von WebArena ab, während Menschen 78,24 % erreichen; der dominierende Fehlermodus ist die falsche Undurchführbarkeit – eine konservative Weigerung zu handeln – mit direkten Auswirkungen auf jeden Agenten, der Fava oder Finanz-Web-UIs bedient.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

TableLlama unterzieht Llama 2 (7B) einem Fine-Tuning mit 2,6 Millionen Tabellen-Aufgabenbeispielen und schlägt GPT-4 bei strukturellen Aufgaben wie der Spaltentyp-Annotation (F1 94 vs. 32), bleibt jedoch 33 Punkte hinter dem kompositionellen Denken von WikiTQ zurück – ein kalibrierter Benchmark dafür, was offene 7B-Modelle heute in der Finanz-KI leisten können und was nicht.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.

Alles Über Open Source

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

WebArena: Der Benchmark mit 812 Aufgaben, der misst, was Web-Agenten tatsächlich können und was nicht

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches