TheAgentCompany: 실제 기업 업무에서의 LLM 에이전트 벤치마킹

2026년 6월 19일 · 약 5분

Mike Thrift

Marketing Manager

TheAgentCompany는 제가 지금까지 이 시리즈에서 읽은 기업용 에이전트 벤치마크 중 가장 현실적인 사례입니다. 카네기 멜런 대학교(CMU)의 Graham Neubig 교수 팀에서 발표하여 NeurIPS 2024에 제출된 이 논문은 기존 벤치마크들의 한계를 지적하며 시작됩니다. 기존 벤치마크들이 고립된 웹 탐색이나 GitHub 이슈 해결만을 테스트했다면, 실제 직장 업무에서는 내부 플랫폼 브라우징, 동료와의 메시지 주고받기, 코드 작성 및 프로그램 실행이 단일 작업 내에서 모두 이루어져야 합니다. 제가 지금 이 논문을 읽는 이유는 LLM 에이전트가 실제로 중요한 환경에서 디지털 동료로서 기능할 수 있는지를 확인하는 가장 정밀하게 통제된 실험이기 때문입니다.

논문 내용

2026-06-19-theagentcompany-benchmarking-llm-agents-real-world-tasks

Xu 연구팀은 로컬 작업 공간과 함께 GitLab, OwnCloud, Plane(프로젝트 관리), RocketChat(팀 메시징)의 실제 인스턴스가 실행되는 독립적인 가상 회사를 구축했습니다. 이 환경에는 LLM이 구동하는 가상 동료(NPC)도 포함되어 있어, 에이전트가 메시지를 보내고 작업 중간에 가이드를 받을 수 있습니다. 작업은 소프트웨어 개발(SDE), 프로젝트 관리, 인사(HR), 데이터 과학, 재무, 행정, 그리고 기타 등 7가지 역할 카테고리로 나뉩니다. 총 175개의 작업은 20명의 컴퓨터 과학 전공 학생과 소프트웨어 엔지니어가 2개월 동안 약 3,000인시(person-hours)를 투입하여 정교하게 구성했습니다.

평가는 체크포인트 시스템을 사용합니다. 각 작업에는 전체 점수의 일부를 차지하는 중간 마일스톤이 있으며, 최종 완료 시 보너스 점수가 주어집니다. 평가 방식은 결정론적 방식(파일 내용, 코드 출력, 환경 상태 확인) 또는 LLM 기반 방식(자유 형식 텍스트 평가)을 혼합하여 사용합니다. 모든 모델은 단일 구성 가능 하네스에서 코드 실행, 웹 브라우징, 터미널 액세스를 제공하는 OpenHands 에이전트 프레임워크 기반으로 작동합니다.

주요 포인트

Gemini-2.5-Pro가 전체 완료율 30.3%, 부분 점수 39.3%로 선두를 달리고 있습니다. Claude-3.7-Sonnet(26.3% / 36.4%), GPT-4o(8.6% / 16.7%), Llama-3.1-405B(7.4%)가 그 뒤를 잇습니다.
최고 성능 모델조차 작업당 평균 약 27단계를 거치며 4달러 이상의 비용이 발생합니다. 이는 저자들이 실제 직장 업무보다 단순하다고 설명한 작업들임에도 불구하고 그렇습니다.
재무 작업은 행정 및 데이터 과학과 함께 가장 어려운 카테고리에 속합니다. 반면 SDE 작업은 더 전문적인 기술 지식이 필요함에도 불구하고 가장 안정적으로 해결되었습니다.
세 가지 주요 실패 유형이 관찰되었습니다. 복잡한 웹 UI(특히 OwnCloud의 오피스 제품군) 탐색 실패, 동료의 메시지를 생산적으로 활용하지 못하는 "사회적 기술 부족", 그리고 지루한 교차 참조가 필요한 다중 문서 행정 작업을 포기하는 현상입니다.
저자들은 SDE 작업에서의 강점을 훈련 데이터 편향 때문이라고 분석합니다. LLM 사전 학습 데이터가 주요 벤치마크와 풍부한 공개 데이터 덕분에 코드 및 GitHub 데이터에 크게 쏠려 있어, 모델이 인사나 재무 워크플로우보다 소프트웨어 작업에 훨씬 더 잘 일반화된다는 것입니다.

성과와 한계점

환경 설계는 진정으로 인상적입니다. 시뮬레이션된 가짜 환경이 아니라 실제 GitLab, OwnCloud, RocketChat을 실행함으로써 에이전트가 실제 팝업, 인증 흐름, 예외 케이스와 같은 실제 UI의 복잡성에 직면하게 했습니다. 체크포인트 기반의 부분 점수 산정 방식도 탁월한 선택이었습니다. 단순한 성공/실패 이진 평가였다면 대부분의 작업이 희망 없는 것으로 간주되어 에이전트가 실제로 진전을 보인 부분을 가렸을 것입니다.

하지만 몇 가지 약점도 지적할 필요가 있습니다. 가장 결정적인 것은 인간의 성능 기준(baseline)이 없다는 점입니다. 저자들도 자원 제약으로 인해 인간의 작업 시간이나 성공률을 수집하지 못했음을 인정했습니다. 이는 비교 대상이 없음을 의미합니다. 30%의 완료율이 나빠 보일 수 있지만, 인간이 동일한 작업에 20분을 쓰는지 3시간을 쓰는지, 혹은 일부 작업이 본질적으로 모호한지 알 수 없다면 이 수치를 맥락화하기 어렵습니다.

재무 카테고리의 작업은 12개에 불과합니다. 이는 재무 분야 특유의 실패 원인에 대해 견고한 결론을 내리기에는 너무 적은 표본입니다. 에이전트가 재무에 약한 이유가 재무적 추론 능력 때문인지, 아니면 재무 작업이 우연히 OwnCloud 문서 탐색을 더 많이 포함하고 있기 때문인지 이 논문 규모에서는 구분할 수 없으며, 저자들도 이를 시도하지 않았습니다.

또한 저자들은 "프로그램과 테스트 케이스를 통한 자동 평가를 위해 작업들이 대체로 단순한 편"이라고 인정했습니다. 실제 회계나 재무에서 가장 어려운 작업들—불일치하는 기초 데이터를 기반으로 연말 결산 조정을 준비하거나, 규제 준수 이슈를 식별하거나, 여러 원장 기간에 걸친 경영 보고서를 생성하는 것 등—은 본질적으로 자동 평가가 불가능합니다. 이 벤치마크는 자율 재무 에이전트에게 가장 중요한 작업들을 과소평가하고 있을 가능성이 높습니다.

재무 AI에 시사하는 점

이번 결과는 유익한 방식으로 우리를 각성시킵니다. 저자들이 단순화했다고 말한 작업에서 30%의 완료율을 보였다는 것은 자율 에이전트가 실제 회계 워크플로우를 처리하기에는 아직 갈 길이 멀다는 것을 의미합니다. 재무 카테고리는 특히 취약하며, 주요 실패 원인인 복잡한 UI, 다중 문서 검색, 인간 동료와의 커뮤니케이션 단절은 Beancount 자동화 에이전트가 반드시 갖춰야 할 기술들입니다. 즉, 문서 저장소에서 데이터를 추출하고, 보고서 간에 트랜잭션을 교차 참조하며, 데이터를 기록하기 전에 명확한 질문을 던지는 능력이 필요합니다.

최고 모델의 작업당 4달러라는 비용은 강력한 제약 요인입니다. 이 정도 비용이라면 수십 개의 세부 작업이 포함된 일상적인 월말 결산에 에이전트를 투입할 경우, 신뢰성이 보장되지 않은 상태에서 수백 달러의 비용이 발생하게 됩니다. Gemini-2.0-Flash가 손실을 일찍 차단하여 작업당 1달러 미만으로 19.0%의 부분 점수를 얻은 패턴은, 실패할 경로에서 토큰을 낭비하기보다 언제 멈추고 인간에게 에스컬레이션해야 할지를 아는 것이 실질적인 엔지니어링 가치가 있음을 시사합니다.

가상 동료 NPC는 Beancount의 실제 제약 조건과 직접적으로 연결되는 흥미로운 설계 요소입니다. 사용자의 피드백을 무시하고 잘못된 가정을 바탕으로 진행하는 에이전트는 멈추고 질문하는 에이전트보다 훨씬 위험합니다. 현재 모델들이 동료의 메시지에서 유용한 정보를 추출하는 데 실패한다는 벤치마크의 결과는, 세션 중간에 인간 회계사와 상호작용하는 모든 기록형(write-back) 에이전트 설계에 직접적으로 반영되어야 합니다.

더 읽어볼 거리

OpenHands: An Open Platform for AI Software Developers as Generalist Agents — TheAgentCompany의 기반이 되는 에이전트 프레임워크입니다. (arXiv:2407.16741, ICLR 2025). OpenHands의 CodeAct + 브라우징 아키텍처를 이해하면 어떤 기능이 기본 사양이고 TheAgentCompany가 무엇을 테스트하는지 명확해집니다.
DocFinQA: A Long-Context Financial Reasoning Dataset — 7,437개의 FinQA 질문을 평균 123,000단어에 달하는 전체 SEC 공시 문서로 확장한 데이터셋입니다. (arXiv:2401.06915, ACL 2024). TheAgentCompany의 12개 재무 작업이 충분히 다루지 못한 긴 문서 기반 재무 추론을 직접 테스트합니다.
Evaluation and Benchmarking of LLM Agents: A Survey — 2025년에 발표된 에이전트 평가 현황 조사 논문입니다. (arXiv:2507.21504). TheAgentCompany를 WebArena, OSWorld, SWE-bench와 비교하여 벤치마크 설계 방식이 에이전트 능력에 대한 결론을 어떻게 형성하는지 분석합니다.

Share on Twitter Follow @beancount_io

TheAgentCompany: 실제 기업 업무에서의 LLM 에이전트 벤치마킹

논문 내용

주요 포인트

성과와 한계점

재무 AI에 시사하는 점

더 읽어볼 거리

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용​

주요 포인트​

성과와 한계점​

재무 AI에 시사하는 점​

더 읽어볼 거리​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용

주요 포인트

성과와 한계점

재무 AI에 시사하는 점

더 읽어볼 거리