InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹

2026년 6월 2일 · 약 6분

Mike Thrift

Marketing Manager

대부분의 금융 AI 벤치마크는 LLM이 금융 데이터에 관한 질문에 답할 수 있는지를 테스트합니다. InvestorBench는 더 어려운 질문을 던집니다. "LLM 에이전트가 실제로 돈을 벌 수 있는가?"입니다. 이것은 제가 본 것 중 주식, 암호화폐, ETF에 걸쳐 13개의 서로 다른 백본 모델을 실제 (백테스트된) 거래 작업에 투입하고, QA 정확도가 아닌 누적 수익률과 샤프 지수를 측정하는 첫 번째 벤치마크입니다. 단순한 이해에서 의사결정으로의 이러한 전환은 Bean Labs가 지향해야 할 올바른 방향입니다.

논문 내용

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li 등, arXiv:2412.18174, ACL 2025)는 금융 거래에서 LLM을 평가하기 위한 벤치마크와 수반되는 에이전트 프레임워크를 소개합니다. 에이전트 아키텍처는 모듈식입니다. 브레인(LLM 백본), 시장 데이터를 텍스트로 변환하는 지각(Perception) 레이어, 그리고 세 가지 감쇠 윈도우를 가진 계층형 메모리 시스템으로 구성됩니다. 이 윈도우는 일일 뉴스를 위한 14일, 분기 보고서를 위한 90일, 연례 공시를 위한 365일로 나뉩니다. 결정 시점에 에이전트는 이 세 가지 레이어 전체에서 정보를 검색하고 매수/매도/보유 행동을 결정하기 위한 추론을 수행합니다.

벤치마크는 세 가지 단일 자산 작업군을 다룹니다. 주식 거래는 2020년 10월부터 2021년 5월까지 테스트된 7개 종목(MSFT, JNJ, TSLA, AAPL 등)을 사용합니다. 암호화폐는 2023년 4월부터 11월까지의 비트코인과 이더리움을 다룹니다. ETF 거래는 2020년 1월부터 9월까지의 NIFTY 데이터셋을 사용합니다. 각 작업은 OHLCV 데이터, 감성 라벨이 포함된 뉴스 기사, SEC 공시 자료 또는 그에 준하는 데이터를 제공합니다. 주요 지표는 누적 수익률(CR)과 샤프 지수(SR)입니다.

핵심 아이디어

계층형 메모리 설계(14/90/365일 감쇠 윈도우)는 전문 분석가들이 정보를 실제로 다루는 방식을 반영합니다. 일일 가격 변동, 분기 실적, 연간 전략적 맥락은 서로 다른 시간적 가중치를 갖습니다.
모델 크기는 성능을 예측하는 가장 강력한 지표입니다. 67B 매개변수 이상의 오픈 소스 모델은 주식 CR 및 SR에서 독점 모델과 대등한 수준을 보였으나, 소형 모델은 크게 뒤처졌습니다. Qwen2.5-72B는 주식 리더보드에서 매수 후 보유(buy-and-hold) 기준치인 34.10% CR / 0.732 SR 대비 46.15% CR 및 SR 1.276으로 1위를 기록했습니다.
도메인 특화 미세 조정은 주식에서 오히려 역효과를 냅니다. 금융 사전 학습 모델인 Palmyra-Fin-70B는 주식 거래에서 평균 -0.45% CR 및 SR 0.031을 기록하며 테스트된 모든 범용 모델보다 낮은 성적을 보였습니다. 다만 Palmyra-Fin-70B는 ETF에서 좋은 성적(24.76% CR, 1.152 SR)을 거두었는데, 저자들은 이를 ETF 작업이 모델의 학습 방향과 일치하는 더 긴 시계의 추론을 요구하기 때문이라고 분석합니다.
독점 모델(GPT-4, GPT-4o, GPT-o1-preview)은 주식에서 평균 36.14% CR 및 SR 0.82를 기록하며 매수 후 보유보다 확실히 높았으나 극적인 차이는 아니었습니다. 이들의 더 큰 강점은 암호화폐에서 나타났는데, 오픈 소스 모델이 평균 14.14%를 기록하는 동안 비트코인 CR 23.60%를 달성하여 매수 후 보유의 21.82%를 앞섰습니다.
벤치마크는 오픈 소스로 공개되었으며 평가 도구를 포함하고 있습니다. 거래 실험을 재현하기가 매우 어렵다는 점을 고려할 때 이는 실질적으로 유용한 기여입니다.

유효한 점과 그렇지 않은 점

계층형 메모리 아키텍처는 이 논문에서 가장 원칙적인 설계 선택이며, 이것이 순수하게 유사성 기반 검색보다 성능이 우수하다는 실증적 발견은 타당하고 유용합니다. 크기 대 성능의 상관관계 또한 깔끔한 결과입니다.

주요 약점은 테스트 기간이 실시간 거래가 아닌 짧은 과거 백테스트라는 점입니다. 주식 기간(2020년 10월~2021년 5월)은 코로나19 이후의 부양책, 밈 주식 열풍, 제로 금리에 가까운 금리로 인해 광범위한 주가 상승이 일어났던 기록상 가장 특이한 강세장 중 하나와 일치합니다. 매수 후 보유만으로도 7개 종목 바스켓에서 약 7개월 동안 34.10%의 수익을 올렸습니다. LLM 에이전트가 달성한 개선 수치가 진정한 알파(초과 수익)를 반영하는지, 아니면 단지 상승장에서 더 공격적인 포지션을 취한 결과인지는 주어진 데이터로 판단할 수 없습니다. 마찬가지로, ETF 기간은 코로나19 폭락과 회복기를 포함하고 있습니다. 이는 2020년 3월에 우연히 방어적으로 돌아선 모델이라면 누구나 선견지명이 있는 것처럼 보일 정도로 비정상적인 상황이었습니다.

Palmyra-Fin-70B의 변칙성(주식에서는 처참하고 ETF에서는 강력함)은 만족스럽게 설명되지 않았습니다. 도메인 미세 조정이 모델을 더 긴 시계의 추론으로 재조정한다면, 이는 주식 결과에서도 나타나야 합니다. 그렇지 않다는 사실은 이 결과가 원칙적인 발견이라기보다 짧은 백테스트 기간에서의 노이즈일 수 있음을 시사합니다.

또한 전통적인 알고리즘 기준선(모멘텀, 평균 회귀, 요인 모델)과의 비교도 없습니다. 수동적인 매수 후 보유만을 기준으로 삼는 것은 기준이 너무 낮습니다. 만약 단순 이동평균 교차 전략이 이 기간 동안 매수 후 보유를 이겼다면(추세 시장에서는 흔히 있는 일입니다), 에이전트의 비교 우위는 훨씬 덜 인상적으로 보일 것입니다.

마지막으로, 벤치마크는 단일 자산 결정만을 테스트합니다. 실제 포트폴리오 관리에는 상관관계가 있는 포지션 사이징, 리밸런싱 및 리스크 집계가 필요하지만, 단일 자산 작업은 이를 포착하지 못합니다.

금융 AI 분야에서 이것이 중요한 이유

계층형 메모리 아키텍처는 Beancount에 직접적으로 적용될 수 있습니다. 장부 에이전트는 서로 다른 시간적 규모에서 동시에 추론해야 합니다. 오늘 가져온 세션에서 일어난 일(얕은 수준), 한 분기 동안의 거래 내역이 예산에 대해 시사하는 바(중간 수준), 그리고 다년간의 패턴이 계정 건전성에 대해 말해주는 것(깊은 수준)을 동시에 고려해야 합니다. InvestorBench의 14/90/365일 계층화는 비록 거래 맥락이 장부 정리와는 다르더라도 차용할 가치가 있는 구체적인 설계 템플릿을 제공합니다.

Palmyra-Fin-70B의 발견은 Beancount 미세 조정 노력에 대한 경고이기도 합니다. 금융 텍스트에 대해 광범위하게 학습된 모델이 자동으로 더 나은 에이전트 의사결정을 내리는 것은 아닙니다. 금융 언어 구사 능력과 금융 추론 역량 사이의 간극은 실재합니다. 만약 Bean Labs가 Beancount 문법과 회계 규칙에 대해 모델을 미세 조정한다면, 에이전트 평가는 단순히 출력 형식이 아니라 의사결정의 품질을 테스트해야 합니다.

벤치마크에서 쓰기 권한 안전성 평가가 누락된 점은 Bean Labs가 채워야 할 명확한 공백입니다. InvestorBench 에이전트는 단지 돈을 잃을 뿐이지만, Beancount 에이전트는 장부 자체를 손상시킬 수 있습니다. 평가 프레임워크에는 거래 벤치마크가 포함할 이유가 없는 '비가역성' 차원이 반드시 필요합니다.

다음으로 읽어볼 것들

FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu 등, arXiv:2311.07743) — InvestorBench가 확장한 원형이 되는 계층형 메모리 아키텍처입니다. 원래 설계를 읽어보면 InvestorBench가 실제로 무엇을 추가했는지 명확해집니다.
TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — 토론 기반 다중 에이전트 거래를 탐구하며, 지난주 로그의 단일 에이전트 결과와 대조를 이룹니다.
StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — 여기서 제기한 생존 편향 문제를 다루며, 과거 백테스트가 아닌 미래 전망적 실시간 시장 데이터로 에이전트를 평가하는 것으로 알려져 있습니다.

Share on Twitter Follow @beancount_io

InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹

논문 내용

핵심 아이디어

유효한 점과 그렇지 않은 점

금융 AI 분야에서 이것이 중요한 이유

다음으로 읽어볼 것들

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용​

핵심 아이디어​

유효한 점과 그렇지 않은 점​

금융 AI 분야에서 이것이 중요한 이유​

다음으로 읽어볼 것들​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용

핵심 아이디어

유효한 점과 그렇지 않은 점

금융 AI 분야에서 이것이 중요한 이유

다음으로 읽어볼 것들