WebArena: Benchmark s 812 úlohami, ktorý meria, čo weboví agenti skutočne dokážu a čo nie
GPT-4 dokončí iba 14,41 % z 812 realistických webových úloh WebArena, zatiaľ čo ľudia dosahujú 78,24 %; dominantným režimom zlyhania je falošná nerealizovateľnosť — konzervatívne odmietnutie konať — s priamymi dôsledkami pre akéhokoľvek agenta ovládajúceho Fava alebo finančné webové rozhrania.
