پرش به محتوای اصلی

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

اکثر بنچمارک‌های هوش مصنوعی مالی آزمایش می‌کنند که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند به سوالات مربوط به داده‌های مالی پاسخ دهند یا خیر. InvestorBench سوال سخت‌تری می‌پرسد: آیا یک عامل LLM می‌تواند پول دربیاورد؟ این اولین بنچمارکی است که دیده‌ام ۱۳ مدل پایه مختلف را در وظایف معاملاتی واقعی (بک‌تست شده) در سهام، کریپتو و ETF قرار می‌دهد و بازده تجمعی و نسبت شارپ را به جای دقت پرسش و پاسخ اندازه‌گیری می‌کند. این تغییر از درک مطلب به تصمیم‌گیری، چارچوب درستی برای Bean Labs است.

مقاله

2026-06-02-investorbench-llm-agent-financial-decision-making

پروژه InvestorBench (لی و همکاران، arXiv:2412.18174، ACL 2025) یک بنچمارک و چارچوب عامل همراه را برای ارزیابی LLMها در معاملات مالی معرفی می‌کند. معماری عامل ماژولار است — یک مغز (مدل پایه LLM)، یک لایه ادراک (Perception) که داده‌های بازار را به متن تبدیل می‌کند، و یک سیستم حافظه لایه‌بندی شده با سه پنجره زمانی زوال: ۱۴ روز برای اخبار روزانه، ۹۰ روز برای گزارش‌های فصلی و ۳۶۵ روز برای پرونده‌های سالانه. در زمان تصمیم‌گیری، عامل از هر سه لایه بازیابی اطلاعات کرده و به سمت اقدام خرید/فروش/نگهداری استدلال می‌کند.

این بنچمارک سه خانواده وظیفه تک‌دارایی را پوشش می‌دهد. معاملات سهام شامل هفت سهم (MSFT، JNJ، TSLA، AAPL و غیره) است که از اکتبر ۲۰۲۰ تا مه ۲۰۲۱ آزمایش شده‌اند. بخش کریپتو شامل بیت‌کوین و اتریوم از آوریل تا نوامبر ۲۰۲۳ است. معاملات ETF از مجموعه داده NIFTY از ژانویه تا سپتامبر ۲۰۲۰ استفاده می‌کند. هر وظیفه داده‌های OHLCV، مقالات خبری با برچسب‌های احساسات و پرونده‌های SEC یا معادل آن‌ها را ارائه می‌دهد. معیارهای اصلی بازده تجمعی (CR) و نسبت شارپ (SR) هستند.

ایده‌های کلیدی

  • طراحی حافظه لایه‌بندی شده (پنجره‌های زوال ۱۴/۹۰/۳۶۵ روزه) منعکس‌کننده نحوه برخورد تحلیلگران حرفه‌ای با اطلاعات است: نوسانات قیمت روزانه، سودهای فصلی و زمینه‌های استراتژیک سالانه وزن‌های زمانی متفاوتی دارند.
  • اندازه مدل قوی‌ترین پیش‌بینی‌کننده عملکرد است. مدل‌های متن‌باز با بیش از ۶۷ میلیارد پارامتر در بازده تجمعی و نسبت شارپ سهام با مدل‌های انحصاری برابری می‌کنند، در حالی که مدل‌های کوچک‌تر به طور قابل توجهی عقب می‌مانند. مدل Qwen2.5-72B با ۴۶.۱۵٪ بازده تجمعی و نسبت شارپ ۱.۲۷۶ در مقابل خط پایه خرید و نگهداری (buy-and-hold) با ۳۴.۱۰٪ بازده تجمعی و ۰.۷۳۲ نسبت شارپ، در صدر جدول سهام قرار دارد.
  • تنظیم دقیق (fine-tuning) تخصصی در حوزه سهام نتیجه معکوس می‌دهد. Palmyra-Fin-70B — مدلی که از قبل برای امور مالی آموزش دیده — به طور متوسط بازده تجمعی منفی ۰.۴۵٪ و نسبت شارپ ۰.۰۳۱ را در معاملات سهام ثبت کرد که از تمام مدل‌های همه‌منظوره آزمایش شده بدتر بود. Palmyra-Fin-70B در ETFها خوب عمل کرد (۲۴.۷۶٪ بازده تجمعی، ۱.۱۵۲ نسبت شارپ)، که نویسندگان آن را به وظایف ETF نسبت می‌دهند که به استدلال با افق طولانی‌تر و همسو با آموزش آن نیاز دارد.
  • مدل‌های انحصاری (GPT-4، GPT-4o، GPT-o1-preview) به طور متوسط ۳۶.۱۴٪ بازده تجمعی و ۰.۸۲ نسبت شارپ در سهام داشتند که به طور قابل اعتمادی بالاتر از خرید و نگهداری بود اما نه به طور چشمگیر. برتری بزرگتر آن‌ها در کریپتو نشان داده شد، جایی که به ۲۳.۶۰٪ بازده تجمعی بیت‌کوین در مقابل ۲۱.۸۲٪ برای خرید و نگهداری رسیدند، در حالی که مدل‌های متن‌باز به طور متوسط ۱۴.۱۴٪ بودند.
  • این بنچمارک متن‌باز است و شامل ابزارهای ارزیابی می‌باشد — کمکی عملاً مفید با توجه به اینکه بازتولید آزمایش‌های معاملاتی چقدر دشوار است.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

معماری حافظه لایه‌بندی شده اصولی‌ترین انتخاب طراحی در این مقاله است و یافته‌های تجربی مبنی بر اینکه این معماری از بازیابی صرفاً مبتنی بر شباهت (similarity-based) بهتر عمل می‌کند، منطقی و مفید است. همبستگی بین اندازه و عملکرد نیز نتیجه‌ای واضح است.

ضعف اصلی این است که دوره‌های آزمایش بک‌تست‌های تاریخی کوتاه هستند، نه معاملات زنده. دوره سهام (اکتبر ۲۰۲۰ – مه ۲۰۲۱) با یکی از غیرمعمول‌ترین بازارهای صعودی ثبت شده همزمان است: محرک‌های مالی پس از کووید، تب سهام‌های میم (meme stock) و نرخ بهره نزدیک به صفر باعث افزایش گسترده ارزش سهام شدند. استراتژی خرید و نگهداری در حدود هفت ماه برای سبدی از هفت سهم، ۳۴.۱۰٪ سود به همراه داشت. از داده‌های ارائه شده نمی‌توان تشخیص داد که آیا بهبودهای عامل LLM فراتر از آن عدد بازتاب‌دهنده آلفای واقعی (alpha) است یا فقط موقعیت‌گیری تهاجمی‌تر در یک بازار صعودی. به طور مشابه، دوره ETF شامل سقوط و بازیابی کووید است — وضعیتی چنان غیرعادی که هر مدلی که به طور اتفاقی در مارس ۲۰۲۰ حالت دفاعی می‌گرفت، پیشگو به نظر می‌رسید.

ناهنجاری Palmyra-Fin-70B — فاجعه‌بار در سهام، قوی در ETFها — به طور رضایت‌بخشی توضیح داده نشده است. اگر تنظیم دقیق تخصصی مدل را به سمت افق‌های زمانی طولانی‌تر سوق می‌دهد، این موضوع باید در نتایج سهام نیز خود را نشان می‌داد. این واقعیت که چنین نشده، نشان می‌دهد که نتیجه ممکن است نویز در یک پنجره کوتاه بک‌تست باشد تا یک یافته اصولی.

همچنین هیچ مقایسه‌ای با خطوط پایه الگوریتمی سنتی (مومنتوم، بازگشت به میانگین، مدل‌های عاملی) وجود ندارد. استفاده از استراتژی خرید و نگهداری به عنوان تنها خط پایه غیرفعال، سطح پایینی را تعیین می‌کند. اگر یک تقاطع میانگین متحرک ساده در این دوره‌ها استراتژی خرید و نگهداری را شکست دهد — که اغلب در بازارهای رونددار چنین می‌شود — مقایسه عامل بسیار کمتر چشمگیر به نظر می‌رسد.

در نهایت، بنچمارک فقط تصمیمات تک‌دارایی را آزمایش می‌کند. مدیریت پورتفوی واقعی به تعیین اندازه موقعیت‌های همبسته، بازتعادل (rebalancing) و تجمیع ریسک نیاز دارد که وظایف تک‌دارایی آن‌ها را پوشش نمی‌دهند.

چرا این موضوع برای هوش مصنوعی مالی مهم است

معماری حافظه لایه‌بندی شده مستقیماً به Beancount قابل تعمیم است. یک عامل دفترکل (ledger agent) نیاز دارد به طور همزمان در مقیاس‌های زمانی مختلف استدلال کند: آنچه در جلسه وارد کردن (import) امروز اتفاق افتاده (سطحی)، آنچه یک فصل از تراکنش‌ها درباره یک بودجه فاش می‌کند (میانی)، و آنچه الگوهای چندساله درباره سلامت حساب می‌گویند (عمیق). لایه‌بندی ۱۴/۹۰/۳۶۵ روزه در InvestorBench یک الگوی طراحی ملموس ارائه می‌دهد که ارزش قرض گرفتن را دارد، حتی اگر زمینه معاملاتی با حسابداری متفاوت باشد.

یافته Palmyra-Fin-70B همچنین هشداری برای تلاش‌های تنظیم دقیق Beancount به همراه دارد. مدلی که به طور گسترده روی متون مالی آموزش دیده است، به طور خودکار تصمیمات عاملی بهتری نمی‌گیرد — شکاف بین تسلط به زبان مالی و مهارت استدلال مالی واقعی است. اگر Bean Labs زمانی مدلی را روی نحو (syntax) Beancount و قوانین حسابداری تنظیم دقیق کند، ارزیابی عامل باید کیفیت تصمیم‌گیری را آزمایش کند، نه فقط فرمت خروجی را.

نبود ارزیابی ایمنی بازنویسی (write-back safety) در این بنچمارک، خلأ واضحی است که Bean Labs می‌تواند آن را پر کند. عامل‌های InvestorBench فقط می‌توانند پول از دست بدهند؛ عامل‌های Beancount می‌توانند یک دفترکل را خراب کنند. چارچوب ارزیابی به یک بعد بازگشت‌ناپذیری نیاز دارد که بنچمارک‌های معاملاتی دلیلی برای گنجاندن آن ندارند.

آنچه باید در ادامه بخوانید

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — معماری حافظه لایه‌بندی شده‌ای که InvestorBench آن را گسترش می‌دهد؛ خواندن طرح اصلی روشن می‌کند که InvestorBench واقعاً چه چیزی به آن اضافه کرده است.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — معاملات چند‌عاملی مبتنی بر مباحثه را بررسی می‌کند، تضادی مستقیم با نتیجه تک‌عاملی از گزارش هفته گذشته.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — طبق گزارش‌ها، عامل‌ها را روی داده‌های بازار زنده آینده‌نگر به جای بک‌تست‌های تاریخی ارزیابی می‌کند؛ به نگرانی سوگیری بازماندگی (survivorship bias) که در اینجا مطرح کردم پاسخ می‌دهد.