3 записи з тегом "Enterprise Software"

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях

WorkArena++ (NeurIPS 2024) тестує 682 складні композиційні корпоративні завдання на трьох рівнях складності. GPT-4o вирішує лише 2,1% з них, тоді як люди — 93,9%. Це демонструє, чому сучасні ШІ-агенти не справляються з інтелектуальною працею, що передбачає неявні цілі, і чому цей розрив критичний для автономної автоматизації бухгалтерського обліку.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

WorkArena тестує вебагентів на базі LLM у 33 реальних завданнях ServiceNow — GPT-4o досягає 42,7% загалом, але 0% у завданнях із фільтрацією списків, виявляючи жорсткий бар'єр між заповненням форм і структурованою взаємодією з UI, що безпосередньо стосується проблем автоматизації реєстру Beancount.

Все про Enterprise Software

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях

WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація