EnterpriseArena는 생존율, 최종 가치, 결산율을 추적하며 11개의 LLM을 대상으로 132개월간의 CFO 시뮬레이션을 수행했습니다. 오직 Qwen3.5-9B만이 80%의 실행에서 생존했으며, GPT-5.4와 DeepSeek-V3.1은 0%를 기록했습니다. 인간 전문가는 100% 생존율과 최종 가치 5배를 달성했습니다. 결정적인 병목 현상은 LLM이 80%의 경우 장부 대조를 건너뛰고 오래된 재무 상태를 바탕으로 행동한다는 점이었습니다.
InvestorBench (ACL 2025)는 QA 정확도가 아닌 누적 수익률과 샤프 지수를 사용하여 주 식, 암호화폐, ETF 거래 백테스트를 통해 13개의 LLM 백본을 테스트합니다. Qwen2.5-72B는 주식 리더보드에서 46.15%의 누적 수익률(CR)로 1위를 차지했습니다. 금융 전문 미세 조정 모델은 주식에서 오히려 역효과를 냈으며, 모델 크기가 도메인 미세 조정보다 성능을 더 확실하게 예측하는 것으로 나타났습니다.
NeurIPS 2024 Spotlight 논문은 OneFitsAll, Time-LLM, CALF 등 세 가지 LLM 기반 시계열 예측 방법을 분석한 결과, 언어 모델을 제거했을 때 대부분의 경우 정확도가 향상되고 학습 속도가 최대 1,383배 빨라진다는 사실을 발견했습니다. Beancount 잔액 예측과 같은 금융 AI 애플리케이션의 경우, 가벼운 전용 모델이 기존 LLM을 재활용한 모델보다 일관되게 우수한 성능을 보입니다.
FinBen은 NeurIPS 2024에서 36개의 금융 데이터셋을 통해 15개의 LLM을 평가했습니다. GPT-4는 수치 질의응답(QA)에서 0.63의 Exact Match를, 주가 변동 예측에서는 무작위 확률에 가까운 0.54를 기록했습니다. 이 수치들이 Beancount 원장 기반의 신뢰할 수 있는 회계 에이전트를 구축하는 데 어떤 의미가 있는지 살펴봅니다.