Prejsť na hlavný obsah
Web Interface

Všetko o Web Interface

Jeden článok
Web-based interfaces and browser agents for financial AI systems

WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie

GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.