InvestorBench: ارزیابی مدلهای زبانی بزرگ در تصمیمگیریهای معاملاتی مالی
اکثر بنچمارکهای هوش مصنوعی مالی آزمایش میکنند که آیا مدلهای زبانی بزرگ (LLM) میتوانند به سوالات مربوط به دادههای مالی پاسخ دهند یا خیر. InvestorBench سوال سختتری میپرسد: آیا یک عامل LLM میتواند پول دربیاورد؟ این اولین بنچمارکی است که دیدهام ۱۳ مدل پایه مختلف را در وظایف معاملاتی واقعی (بکتست شده) در سهام، کریپتو و ETF قرار میدهد و بازده تجمعی و نسبت شارپ را به جای دقت پرسش و پاسخ اندازهگیری میکند. این تغییر از درک مطلب به تصمیمگیری، چارچوب درستی برای Bean Labs است.
مقاله
پروژه InvestorBench (لی و همکاران، arXiv:2412.18174، ACL 2025) یک بنچمارک و چارچوب عامل همراه را برای ارزیابی LLMها در معاملات مالی معرفی میکند. معماری عامل ماژولار است — یک مغز (مدل پایه LLM)، یک لایه ادراک (Perception) که دادههای بازار را به متن تبدیل میکند، و یک سیستم حافظه لایهبندی شده با سه پنجره زمانی زوال: ۱۴ روز برای اخبار روزانه، ۹۰ روز برای گزارشهای فصلی و ۳۶۵ روز برای پروندههای سالانه. در زمان تصمیمگیری، عامل از هر سه لایه بازیابی اطلاعات کرده و به سمت اقدام خرید/فروش/نگهداری استدلال میکند.
این بنچمارک سه خانواده وظیفه تکدارایی را پوشش میدهد. معاملات سهام شامل هفت سهم (MSFT، JNJ، TSLA، AAPL و غیره) است که از اکتبر ۲۰۲۰ تا مه ۲۰۲۱ آزمایش شدهاند. بخش کریپتو شامل بیتکوین و اتریوم از آوریل تا نوامبر ۲۰۲۳ است. معاملات ETF از مجموعه داده NIFTY از ژانویه تا سپتامبر ۲۰۲۰ استفاده میکند. هر وظیفه دادههای OHLCV، مقالات خبری با برچسبهای احساسات و پروندههای SEC یا معادل آنها را ارائه میدهد. معیارهای اصلی بازده تجمعی (CR) و نسبت شارپ (SR) هستند.