3 príspevky so štítkom „Enterprise Software“

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

TheAgentCompany testuje 175 reálnych pracovných úloh v rámci simulovaného intranetu s GitLab, OwnCloud a RocketChat. Najlepší model (Gemini-2.5-Pro) dokončí iba 30 % úloh pri cene 4 USD za každú, čo odhaľuje, že autonómni agenti sú stále ďaleko od využiteľnosti pre účtovné a finančné pracovné postupy.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

WorkArena++ (NeurIPS 2024) porovnáva 682 kompozičných podnikových úloh v troch úrovniach náročnosti. GPT-4o rieši 2,1 % z nich, zatiaľ čo ľudia 93,9 %, čím presne izoluje dôvody, prečo súčasní AI agenti zlyhávajú pri vedomostnej práci s implicitnými cieľmi a prečo na tejto priepasti záleží pri autonómnej automatizácii účtovníctva.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

WorkArena testuje webových agentov LLM na 33 reálnych úlohách v systéme ServiceNow – GPT-4o dosahuje celkovú úspešnosť 42,7 %, ale 0 % pri úlohách s filtrovaním zoznamov, čo odhaľuje neprekonateľnú bariéru medzi vypĺňaním formulárov a štruktúrovanou interakciou s UI, ktorá priamo súvisí s výzvami pri automatizácii účtovnej knihy Beancount.

Všetko o Enterprise Software

TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta

WorkArena++: 93 % priepasť medzi výkonom ľudí a AI agentov pri kompozičných podnikových úlohách

WorkArena: Ako si weboví agenti LLM poradia so skutočnou podnikovou znalostnou prácou

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie