Zum Hauptinhalt springen
Web Interface

Alles Über Web Interface

Ein Artikel
Web-based interfaces and browser agents for financial AI systems

WebArena: Der Benchmark mit 812 Aufgaben, der misst, was Web-Agenten tatsächlich können und was nicht

GPT-4 schließt nur 14,41 % der 812 realistischen Web-Aufgaben von WebArena ab, während Menschen 78,24 % erreichen; der dominierende Fehlermodus ist die falsche Undurchführbarkeit – eine konservative Weigerung zu handeln – mit direkten Auswirkungen auf jeden Agenten, der Fava oder Finanz-Web-UIs bedient.