본문으로 건너뛰기

LLM 에이전트가 CFO가 될 수 있을까? EnterpriseArena의 132개월 시뮬레이션이 보여주는 거대한 격차

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

현재 금융 AI 분야에서 가장 야심 찬 질문은 "LLM이 대차대조표에 관한 질문에 답할 수 있는가?"가 아니라 "LLM이 자금이 고갈되지 않게 유지하면서 장기간 회사의 자금을 관리할 수 있는가?"입니다. Yi Han 등의 논문 Can LLM Agents Be CFOs? (arXiv:2603.23638)는 이를 정확히 테스트하기 위해 EnterpriseArena를 구축했으며, 그 답은 '간신히, 그리고 예상과는 다른 방식으로'였습니다.

논문 소개

2026-07-11-can-llm-agents-be-cfos-enterprisearena-resource-allocation-benchmark

EnterpriseArena는 CFO 수준의 자원 배분을 시뮬레이션하는 132개월(11년) 과정의 테스트입니다. 각 타임스텝은 1개월을 나타냅니다. 에이전트는 기업 수준의 재무 정보, 익명화된 비즈니스 문서, 그리고 FRED, CBOE, S&P Global 데이터에서 추출한 거시 경제 신호를 부분적으로 관찰합니다. 에이전트에게는 현금 보유고 확인, 재무 기록 검토, 시장 상황 분석, 현금 흐름 투영이라는 네 가지 작업에 걸쳐 매달 20번의 도구 호출 예산이 주어집니다. 에이전트는 장부 마감(대조), 자금 요청(지분 또는 부채, 확률적 결과 수반), 또는 대기 중 하나를 선택해야 합니다. 주요 제약 조건은 회사의 현금 잔고가 모든 타임스텝에서 0 이상을 유지해야 한다는 것입니다. 이를 위반하면 해당 에피소드는 종료되며 0점을 받습니다. 생존할 경우, 에이전트는 Rev_T × 5 + Cash_T − 5,000 × N_tools라는 공식에 따라 최종 기업 가치를 극대화해야 하며, 이 공식은 과도한 도구 사용에 명시적으로 벌점을 부여합니다.

평가에는 Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B, Qwen3.5-9B를 포함한 11개의 LLM이 사용되었으며, 각각 8년과 14년의 경력을 가진 두 명의 재무 전문가가 검증한 인간 전문가 기준치와 비교되었습니다.

주요 요점

  • 모델 간 생존율의 극심한 차이: Qwen3.5-9B는 실행의 80%에서 생존했고, Gemini-3.1-Pro는 50%, Claude-Haiku-4.5와 GLM-5는 각각 20%를 기록했습니다. 반면 GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B, Mixtral-8x7B는 모두 0%의 생존율을 보였습니다. LLM의 전체 평균 생존율은 26%입니다.
  • 거대 모델이 소형 모델보다 항상 우수한 것은 아님: Qwen3.5-9B(매개변수 90억 개, 생존율 80%, 최종 가치 7,880만 달러)는 Qwen3.5-397B(매개변수 3,970억 개, 생존율 20%)와 GPT-5.4(생존율 0%)를 압도했습니다.
  • 인간과의 거대한 격차: 인간 기준치는 100% 생존율과 1억 5,220만 달러(±2,960만 달러)의 최종 가치를 달성했습니다. LLM 평균은 생존율 26%에 2,820만 달러에 불과했습니다.
  • 결산이 결정적인 병목 현상: 인간 전문가는 타임스텝의 94.3%에서 장부를 마감(대조)하지만, LLM은 평균 19.3%에 그쳤습니다. 결산은 실제 재무 제표를 생성하고 이후의 합리적인 결정을 가능하게 하는 핵심 작업입니다.
  • 행동 없는 정보 수집은 치명적: Qwen3.5-397B는 시뮬레이션 내내 시장 분석 및 예측 도구를 높은 비율로 사용했지만, 장부 마감은 거의 하지 않았으며(결산율 0.0%) 자금 요청도 거의 하지 않아 상황을 '알고 있음'에도 불구하고 현금 고갈로 파산했습니다.
  • 도구 예산 벌점의 중요성: 채점 공식은 행동하기보다 강박적으로 확인만 하는 에이전트에게 벌점을 부여하며, 이는 실제 기회 비용을 반영하는 제약 조건입니다.

유효한 점과 그렇지 않은 점

생존을 엄격한 제약 조건으로 두고 최종 가치를 목표로 하는 이중 목적 설계는 최근 에이전트 벤치마킹에서 가장 뛰어난 선택 중 하나입니다. 이는 실제 CFO가 운영되는 방식, 즉 돈이 떨어지면 성장을 최적화할 수 없다는 현실을 반영합니다. 날짜와 회사명을 익명화한 것은 모델이 암기된 과거 결과에 패턴 매칭을 하는 것을 방지하며, 이는 실제 티커와 날짜를 사용하는 기존 금융 벤치마크보다 개선된 방법론입니다.

저자들이 사례 연구를 통해 식별한 실패 모드 분류는 설득력이 있습니다. GPT-5.4는 99.1%의 통과율을 기록했지만(거의 모든 타임스텝에서 아무것도 하지 않음으로써 행동을 취함), Qwen3.5-397B는 분석을 행동으로 착각했습니다. 이는 서로 다른 해결책이 필요한 행동적 실패 모드들입니다.

덜 설득력 있는 부분은 가우시안 노이즈를 사용하여 시장 충격을 근사화한 확률적 거시 환경입니다. 저자들도 인정했듯이, 이는 블랙 스완 이벤트나 인간의 비합리성을 재현할 수 없습니다. 또한 매월 20회의 도구 호출 예산은 다소 임의적입니다. 실제 CFO는 자신의 기억에 대해 이러한 쿼리 속도 제약을 받지 않으므로, 이 벤치마크가 장기적인 재무 판단력을 측정하는 것인지 아니면 자원 압박 하의 RAG(검색 증강 생성) 능력을 측정하는 것인지 의문이 남습니다. 저자들이 언급한 단일 에이전트 구조 또한 한계점입니다. 실제 CFO는 컨트롤러, FP&A 분석가, 재무팀으로 구성된 계층 구조 내에서 운영되지만, 이 논문은 이를 시뮬레이션하지 않았습니다.

모델 크기가 생존율을 예측하지 못한다는 발견은 놀랍고 아마 사실일 것이지만, 그 메커니즘은 충분히 설명되지 않았습니다. 저자들은 이것이 지시 이행 능력의 실패인지, 긴 문맥의 일관성 문제인지, 아니면 리스크 보정의 문제인지를 명확히 분석하지 않고 단순히 현상만 기록했습니다.

금융 AI에 주는 시사점

EnterpriseArena의 장부 마감 작업은 본질적으로 Beancount의 balance 어설션(assertion) 및 원장 대조 단계와 같습니다. 즉, 행동하기 전에 재무 상태의 실제 데이터(ground-truth)를 확정하는 순간입니다. LLM이 이를 80%나 건너뛴다는 발견은 '쓰기 복구(write-back) 안전성' 문제와 직결됩니다. 행동하기 전 대조를 피하는 에이전트는 오래되었거나 환각된 상태를 바탕으로 행동하는 에이전트입니다. Beancount 자동화의 경우, 에이전트 루프에서 대조 단계는 선택 사항이 아닌 필수적이고 검증 가능한 단계여야 함을 시사합니다.

132개월의 기간은 수년간의 원장 관리와 직접적으로 유사합니다. 시간이 지남에 따라 지속적인 상황 인지 능력이 저하된다는 발견은 5년 치 거래 내역을 관리하는 Beancount 에이전트에서도 예상할 수 있는 퇴보입니다. 에이전트가 문맥 내에 모든 데이터를 가지고 있더라도 60개월 차에 일관성 있게 행동하지 못할 수 있습니다. 이는 장기 실행되는 Beancount 에이전트 세션에서 사후적인 쿼리뿐만 아니라 주기적인 강제 대조 체크포인트가 필요함을 시사합니다.

Qwen3.5-397B가 빠진 '정보 수집의 늪'은 유용한 설계 경고입니다. 많은 검색 도구를 갖춘 에이전트는 특히 잘못된 행동(원장 오염)의 비용이 높을 때 결정을 내리기보다 검색을 선호할 수 있습니다. EnterpriseArena에서 사용된 것과 같은 도구 호출 예산 제약은 Beancount 쓰기 에이전트에서 행동의 규율을 강제하는 데 도움이 될 수 있습니다.

더 읽어보기

  • EcoGym (arXiv:2602.09514) — 자판기, 프리랜서, 운영 환경에서 1,000단계 이상 진행되는 보완적인 장기 경제 벤치마크입니다. 세 환경 모두에서 압도적인 모델이 없다는 점은 EnterpriseArena의 실패 모드가 특정 벤치마크 설계의 특이점이 아님을 시사합니다.
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — 워크플로우 설계를 MCTS와 LLM 피드백을 통한 코드 공간 검색으로 재구성합니다. EnterpriseArena가 수동으로 설계된 에이전트 행동의 실패를 보여준다면, AFlow는 더 나은 파이프라인을 자동으로 발견하기 위한 다음 단계입니다.
  • ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — 기초적인 도구 사용 학습 및 평가 프레임워크입니다. ToolLLM에서 도구 호출 행동이 어떻게 학습되는지 이해하면 EnterpriseArena의 행동 회피 실패가 학습의 문제인지 프롬프팅의 문제인지 명확해질 것입니다.