3 berichten getagd met "Enterprise Software"

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

TheAgentCompany test 175 realistische werktaken binnen een gesimuleerd intranet met GitLab, OwnCloud en RocketChat. Het beste model (Gemini-2.5-Pro) voltooit slechts 30% van de taken voor $4 per stuk, wat aantoont dat autonome agents nog verre van inzetbaar zijn voor boekhoudkundige en financiële workflows.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

WorkArena++ (NeurIPS 2024) benchmarkt 682 compositionele bedrijfstaken verdeeld over drie moeilijkheidsgraden. GPT-4o lost 2,1% hiervan op, terwijl mensen 93,9% oplossen. Dit laat precies zien waarom de huidige AI-agenten falen bij kenniswerk met impliciete doelen en waarom die kloof cruciaal is voor autonome boekhoudautomatisering.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

WorkArena benchmarkt LLM-webagents op 33 echte ServiceNow-taken — GPT-4o bereikt in totaal 42,7%, maar 0% op lijstfiltertaken, wat een harde muur blootlegt tussen het invullen van formulieren en gestructureerde UI-interactie die direct verband houdt met uitdagingen in Beancount-grootboekautomatisering.

Alles Over Enterprise Software

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

WorkArena++: De kloof van 93% tussen menselijke en AI-agentprestaties bij compositionele bedrijfstaken

WorkArena: Hoe LLM-webagents presteren op echt zakelijk kenniswerk

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch