InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹
대부분의 금융 AI 벤치마크는 LLM이 금융 데이터에 관한 질문에 답할 수 있는지를 테스트합니다. InvestorBench는 더 어려운 질문을 던집니다. "LLM 에이전트가 실제로 돈을 벌 수 있는가?"입니다. 이것은 제가 본 것 중 주식, 암호화폐, ETF에 걸쳐 13개의 서로 다른 백본 모델을 실제 (백테스트된) 거래 작업에 투입하고, QA 정확도가 아닌 누적 수익률과 샤프 지수를 측정하는 첫 번째 벤치마크입니다. 단순한 이해에서 의사결정으로의 이러한 전환은 Bean Labs가 지향해야 할 올바른 방향입니다.
논문 내용
InvestorBench (Li 등, arXiv:2412.18174, ACL 2025)는 금융 거래에서 LLM을 평가하기 위한 벤치마크와 수반되는 에이전트 프레임워크를 소개합니다. 에이전트 아키텍처는 모듈식입니다. 브레인(LLM 백본), 시장 데이터를 텍스트로 변환하는 지각(Perception) 레이어, 그리고 세 가지 감쇠 윈도우를 가진 계층형 메모리 시스템으로 구성됩니다. 이 윈도우는 일일 뉴스를 위한 14일, 분기 보고서를 위한 90일, 연례 공시를 위한 365일로 나뉩니다. 결정 시점에 에이전트는 이 세 가지 레이어 전체에서 정보를 검색하고 매수/매도/보유 행동을 결정하기 위한 추론을 수행합니다.
벤치마크는 세 가지 단일 자산 작업군을 다룹니다. 주식 거래는 2020년 10월부터 2021년 5월까지 테스트된 7개 종목(MSFT, JNJ, TSLA, AAPL 등)을 사용합니다. 암호화폐는 2023년 4월부터 11월까지의 비트코인과 이더리움을 다룹니다. ETF 거래는 2020년 1월부터 9월까지의 NIFTY 데이터셋을 사용합니다. 각 작업은 OHLCV 데이터, 감성 라벨이 포함된 뉴스 기사, SEC 공시 자료 또는 그에 준하는 데이터를 제공합니다. 주요 지표는 누적 수익률(CR)과 샤프 지수(SR)입니다.
핵심 아이디어
- 계층형 메모리 설계(14/90/365일 감쇠 윈도우)는 전문 분석가들이 정보를 실제로 다루는 방식을 반영합니다. 일일 가격 변동, 분기 실적, 연간 전략적 맥락은 서로 다른 시간적 가중치를 갖습니다.
- 모델 크기는 성능을 예측하는 가장 강력한 지표입니다. 67B 매개변수 이상의 오픈 소스 모델은 주식 CR 및 SR에서 독점 모델과 대등한 수준을 보였으나, 소형 모델은 크게 뒤처졌습니다. Qwen2.5-72B는 주식 리더보드에서 매수 후 보유(buy-and-hold) 기준치인 34.10% CR / 0.732 SR 대비 46.15% CR 및 SR 1.276으로 1위를 기록했습니다.
- 도메인 특화 미세 조정은 주식에서 오히려 역효과를 냅니다. 금융 사전 학습 모델인 Palmyra-Fin-70B는 주식 거래에서 평균 -0.45% CR 및 SR 0.031을 기록하며 테스트된 모든 범용 모델보다 낮은 성적을 보였습니다. 다만 Palmyra-Fin-70B는 ETF에서 좋은 성적(24.76% CR, 1.152 SR)을 거두었는데, 저자들은 이를 ETF 작업이 모델의 학습 방향과 일치하는 더 긴 시계의 추론을 요구하기 때문이라고 분석합니다.
- 독점 모델(GPT-4, GPT-4o, GPT-o1-preview)은 주식에서 평균 36.14% CR 및 SR 0.82를 기록하며 매수 후 보유보다 확실히 높았으나 극적인 차이는 아니었습니다. 이들의 더 큰 강점은 암호화폐에서 나타났는데, 오픈 소스 모델이 평균 14.14%를 기록하는 동안 비트코인 CR 23.60%를 달성하여 매수 후 보유의 21.82%를 앞섰습니다.
- 벤치마크는 오픈 소스로 공개되었으며 평가 도구를 포함하고 있습니다. 거래 실험을 재현하기가 매우 어렵다는 점을 고려할 때 이는 실질적으로 유용한 기여입니다.
유효한 점과 그렇지 않은 점
계층형 메모리 아키텍처는 이 논문에서 가장 원칙적인 설계 선택이며, 이것이 순수하게 유사성 기반 검색보다 성능이 우수하다는 실증적 발견은 타당하고 유용합니다. 크기 대 성능의 상관관계 또한 깔끔한 결과입니다.
주요 약점은 테스트 기간이 실시간 거래가 아닌 짧은 과거 백테스트라는 점입니다. 주식 기간(2020년 10월~2021년 5월)은 코로나19 이후의 부양책, 밈 주식 열풍, 제로 금리에 가까운 금리로 인해 광범위한 주가 상승이 일어났던 기록상 가장 특이한 강세장 중 하나와 일치합니다. 매수 후 보유만으로도 7개 종목 바스켓에서 약 7개월 동안 34.10%의 수익을 올렸습니다. LLM 에이전트가 달성한 개선 수치가 진정한 알파(초과 수익)를 반영하는지, 아니면 단지 상승장에서 더 공격적인 포지션을 취한 결과인지는 주어진 데이터로 판단할 수 없습니다. 마찬가지로, ETF 기간은 코로나19 폭락과 회복기를 포함하고 있습니다. 이는 2020년 3월에 우연히 방어적으로 돌아선 모델이라면 누구나 선견지명이 있는 것처럼 보일 정도로 비정상적인 상황이었습니다.
Palmyra-Fin-70B의 변칙성(주식에서는 처참하고 ETF에서는 강력함)은 만족스럽게 설명되지 않았습니다. 도메인 미세 조정이 모델을 더 긴 시계의 추론으로 재조정한다면, 이는 주식 결과에서도 나타나야 합니다. 그렇지 않다는 사실은 이 결과가 원칙적인 발견이라기보다 짧은 백테스트 기간에서의 노이즈일 수 있음을 시사합니다.
또한 전통적인 알고리즘 기준선(모멘텀, 평균 회귀, 요인 모델)과의 비교도 없습니다. 수동적인 매수 후 보유만을 기준으로 삼는 것은 기준이 너무 낮습니다. 만약 단순 이동평균 교차 전략이 이 기간 동안 매수 후 보유를 이겼다면(추세 시장에서는 흔히 있는 일입니다), 에이전트의 비교 우위는 훨씬 덜 인상적으로 보일 것입니다.
마지막으로, 벤치마크는 단일 자산 결정만을 테스트합니다. 실제 포트폴리오 관리에는 상관관계가 있는 포지션 사이징, 리밸런싱 및 리스크 집계가 필요하지만, 단일 자산 작업은 이를 포착하지 못합니다.