LLM 에이전트가 CFO가 될 수 있을까? EnterpriseArena의 132개월 시뮬레이션이 보여주는 거대한 격차
현재 금융 AI 분야에서 가장 야심 찬 질문은 "LLM이 대차대조표에 관한 질문에 답할 수 있는가?"가 아니라 "LLM이 자금이 고갈되지 않게 유지하면서 장기간 회사의 자금을 관리할 수 있는가?"입니다. Yi Han 등의 논문 Can LLM Agents Be CFOs? (arXiv:2603.23638)는 이를 정확히 테스트하기 위해 EnterpriseArena를 구축했으며, 그 답은 '간신히, 그리고 예상과는 다른 방식으로'였습니다.
논문 소개
EnterpriseArena는 CFO 수준의 자원 배분을 시뮬레이션하는 132개월(11년) 과정의 테스트입니다. 각 타임스텝은 1개월을 나타냅니다. 에이전트는 기업 수준의 재무 정보, 익명화된 비즈니스 문서, 그리고 FRED, CBOE, S&P Global 데이터에서 추출한 거시 경제 신호를 부분적으로 관찰합니다. 에이전트에게는 현금 보유고 확인, 재무 기록 검토, 시장 상황 분석, 현금 흐름 투영이라는 네 가지 작업에 걸쳐 매달 20번의 도구 호출 예산이 주어집니다. 에이전트는 장부 마감(대조), 자금 요청(지분 또는 부채, 확률적 결과 수반), 또는 대기 중 하나를 선택해야 합니다. 주요 제약 조건은 회사의 현금 잔고가 모든 타임스텝에서 0 이상을 유지해야 한다는 것입니다. 이를 위반하면 해당 에피소드는 종료되며 0점을 받습니다. 생존할 경우, 에이전트는 Rev_T × 5 + Cash_T − 5,000 × N_tools라는 공식에 따라 최종 기업 가치를 극대화해야 하며, 이 공식은 과도한 도구 사용에 명시적으로 벌점을 부여합니다.
평가에는 Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B, Qwen3.5-9B를 포함한 11개의 LLM이 사용되었으며, 각각 8년과 14년의 경력을 가진 두 명의 재무 전문가가 검증한 인간 전문가 기준치와 비교되었습니다.
주요 요점
- 모델 간 생존율의 극심한 차이: Qwen3.5-9B는 실행의 80%에서 생존했고, Gemini-3.1-Pro는 50%, Claude-Haiku-4.5와 GLM-5는 각각 20%를 기록했습니다. 반면 GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B, Mixtral-8x7B는 모두 0%의 생존율을 보였습니다. LLM의 전체 평균 생존율은 26%입니다.
- 거대 모델이 소형 모델보다 항상 우수한 것은 아님: Qwen3.5-9B(매개변수 90억 개, 생존율 80%, 최종 가치 7,880만 달러)는 Qwen3.5-397B(매개변수 3,970억 개, 생존율 20%)와 GPT-5.4(생존율 0%)를 압도했습니다.
- 인간과의 거대한 격차: 인간 기준치는 100% 생존율과 1억 5,220만 달러(±2,960만 달러)의 최종 가치를 달성했습니다. LLM 평균은 생존율 26%에 2,820만 달러에 불과했습니다.
- 결산이 결정적인 병목 현상: 인간 전문가는 타임스텝의 94.3%에서 장부를 마감(대조)하지만, LLM은 평균 19.3%에 그쳤습니다. 결산은 실제 재무 제표를 생성하고 이후의 합리적인 결정을 가능하게 하는 핵심 작업입니다.
- 행동 없는 정보 수집은 치명적: Qwen3.5-397B는 시뮬레이션 내내 시장 분석 및 예측 도구를 높은 비율로 사용했지만, 장부 마감은 거의 하지 않았으며(결산율 0.0%) 자금 요청도 거의 하지 않아 상황을 '알고 있음'에도 불구하고 현금 고갈로 파산했습니다.
- 도구 예산 벌점의 중요성: 채점 공식은 행동하기보다 강박적으로 확인만 하는 에이전트에게 벌점을 부여하며, 이는 실제 기회 비용을 반영하는 제약 조건입니다.
유효한 점과 그렇지 않은 점
생존을 엄격한 제약 조건으로 두고 최종 가치를 목표로 하는 이중 목적 설계는 최근 에이전트 벤치마킹에서 가장 뛰어난 선택 중 하나입니다. 이는 실제 CFO가 운영되는 방식, 즉 돈이 떨어지면 성장을 최적화할 수 없다는 현실을 반영합니다. 날짜와 회사명을 익명화한 것은 모델이 암기된 과거 결과에 패턴 매칭을 하는 것을 방지하며, 이는 실제 티커와 날짜를 사용하는 기존 금융 벤치마크보다 개선된 방법론입니다.
저자들이 사례 연구를 통해 식별한 실패 모드 분류는 설득력이 있습니다. GPT-5.4는 99.1%의 통과율을 기록했지만(거의 모든 타임스텝에서 아무것도 하지 않음으로써 행동을 취함), Qwen3.5-397B는 분석을 행동으로 착각했습니다. 이는 서로 다른 해결책이 필요한 행동적 실패 모드들입니다.
덜 설득력 있는 부분은 가우시안 노이즈를 사용하여 시장 충격을 근사화한 확률적 거시 환경입니다. 저자들도 인정했듯이, 이는 블랙 스완 이벤트나 인간의 비합리성을 재현할 수 없습니다. 또한 매월 20회의 도구 호출 예산은 다소 임의적입니다. 실제 CFO는 자신의 기억에 대해 이러한 쿼리 속도 제약을 받지 않으므로, 이 벤치마크가 장기적인 재무 판단력을 측정하는 것인지 아니면 자원 압박 하의 RAG(검색 증강 생성) 능력을 측정하는 것인지 의문이 남습니다. 저자들이 언급한 단일 에이전트 구조 또한 한계점입니다. 실제 CFO는 컨트롤러, FP&A 분석가, 재무팀으로 구성된 계층 구조 내에서 운영되지만, 이 논문은 이를 시뮬레이션하지 않았습니다.
모델 크기가 생존율을 예측하지 못한다는 발견은 놀랍고 아마 사실일 것이지만, 그 메커니즘은 충분히 설명되지 않았습니다. 저자들은 이것이 지시 이행 능력의 실패인지, 긴 문맥의 일관성 문제인지, 아니면 리스크 보정의 문제인지를 명확히 분석하지 않고 단순히 현상만 기록했습니다.