본문으로 건너뛰기
Enterprise Software

모든 것에 대하여 Enterprise Software

3개의 기사
Enterprise software automation, web agents, and knowledge work task research

TheAgentCompany: 실제 기업 업무에서의 LLM 에이전트 벤치마킹

TheAgentCompany는 GitLab, OwnCloud, RocketChat이 실행되는 가상 인트라넷 환경에서 175개의 실제 업무 작업을 테스트합니다. 최고 성능 모델(Gemini-2.5-Pro)조차 작업당 4달러의 비용으로 30%의 성공률만 기록하며, 자율 에이전트가 회계 및 재무 워크플로우에 실질적으로 도입되기에는 아직 갈 길이 멀다는 점을 시사합니다.

WorkArena++: 복합적 기업 업무에서 인간과 AI 에이전트 간의 93% 성능 격차

WorkArena++ (NeurIPS 2024)는 세 가지 난이도 수준에 걸쳐 682개의 복합적 기업 업무를 벤치마킹합니다. GPT-4o는 이 중 2.1%만 해결하는 반면 인간은 93.9%를 해결하여, 현재의 AI 에이전트가 암시적 목표 지식 노동에서 실패하는 이유와 그 격차가 자율 회계 자동화에 중요한 이유를 정확히 규명합니다.

WorkArena: LLM 웹 에이전트가 실제 기업 지식 업무에서 보여주는 성능

WorkArena는 33개의 실제 ServiceNow 작업을 통해 LLM 웹 에이전트를 벤치마킹합니다. GPT-4o는 전체 42.7%의 성공률을 기록했지만 리스트 필터링 작업에서는 0%를 기록하며, 폼 입력과 구조화된 UI 상호작용 사이의 명확한 한계를 드러냈습니다. 이는 Beancount 장부 자동화의 도전 과제와 직접적으로 연결되는 문제입니다.