Salta al contingut principal

InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La majoria de les avaluacions comparatives d'IA per a finances proven si els LLM poden respondre preguntes sobre dades financeres. InvestorBench planteja una pregunta més difícil: pot un agent LLM guanyar diners? És la primera avaluació comparativa que he vist que sotmet 13 models diferents a tasques de compravenda reals (en proves retroactives) en accions, criptomonedes i ETF, mesurant el rendiment acumulat i la ràtio de Sharpe en lloc de la precisió de les respostes. Aquest canvi de la comprensió a la presa de decisions és l'enfocament correcte per a Bean Labs.

L'article

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) presenta una avaluació comparativa i un marc d'agents acompanyant per avaluar els LLM en la compravenda financera. L'arquitectura de l'agent és modular — un Cervell (el backbone del LLM), una capa de Percepció que converteix les dades del mercat en text, i un sistema de Memòria per nivells amb tres finestres de degradació: 14 dies per a notícies diàries, 90 dies per a informes trimestrals i 365 dies per a les presentacions anuals. En el moment de la decisió, l'agent recupera informació de les tres capes i raona per arribar a una acció de compra/venda/manteniment.

L'avaluació comparativa cobreix tres famílies de tasques d'actiu únic. La compravenda d'accions utilitza set valors (MSFT, JNJ, TSLA, AAPL, etc.) provats des de l'octubre del 2020 fins al maig del 2021. Les criptomonedes cobreixen Bitcoin i Ethereum des de l'abril fins al novembre del 2023. La compravenda d'ETF utilitza el conjunt de dades NIFTY des del gener fins al setembre del 2020. Cada tasca proporciona dades OHLCV, articles de notícies amb etiquetes de sentiment i presentacions de la SEC o equivalents. Les mètriques principals són el rendiment acumulat (CR) i la ràtio de Sharpe (SR).

Idees clau

  • El disseny de memòria per nivells (finestres de degradació de 14/90/365 dies) reflecteix com els analistes professionals tracten realment la informació: l'evolució diària del preu, els beneficis trimestrals i el context estratègic anual tenen pesos temporals diferents.
  • La mida del model és el predictor més sòlid del rendiment. Els models de codi obert de més de 67.000 milions de paràmetres igualen els models privats en CR i SR d'accions, mentre que els models més petits queden significativament enrere. Qwen2.5-72B encapçala la classificació d'accions amb un 46,15% de CR i un SR d'1,276 en comparació amb una línia base de "comprar i mantenir" del 34,10% de CR / 0,732 d'SR.
  • L'ajust d'especialització de domini és contraproduent en les accions. Palmyra-Fin-70B —un model preentrenat per a finances— va obtenir una mitjana de −0,45% de CR i 0,031 d'SR en la compravenda d'accions, pitjor que qualsevol model de propòsit general provat. Palmyra-Fin-70B va obtenir bons resultats en els ETF (24,76% de CR, 1,152 d'SR), cosa que els autors atribueixen al fet que les tasques d'ETF requereixen un raonament a més llarg termini alineat amb el seu entrenament.
  • Els models privats (GPT-4, GPT-4o, GPT-o1-preview) van obtenir una mitjana de 36,14% de CR i 0,82 d'SR en accions, per sobre de "comprar i mantenir" de manera fiable, però no de manera espectacular. El seu major avantatge es mostra en les criptomonedes, on van assolir un 23,60% de CR en BTC en comparació amb el 21,82% de "comprar i mantenir", mentre que els models de codi obert van obtenir una mitjana del 14,14%.
  • L'avaluació comparativa és de codi obert i inclou eines d'avaluació — una contribució pràcticament útil atesa la dificultat de reproduir experiments de compravenda.

Què se sosté — i què no

L'arquitectura de memòria per nivells és l'elecció de disseny més fonamentada de l'article, i la troballa empírica que supera la recuperació basada purament en la similitud és plausible i útil. La correlació entre mida i rendiment també és un resultat clar.

La debilitat principal és que els períodes de prova són proves retroactives històriques curtes, no compravenda en viu. El període de les accions (octubre 2020–maig 2021) coincideix amb un dels mercats alcistes més inusuals que es recorden: l'estímul post-COVID, el frenesí de les accions "meme" i els tipus propers a zero van impulsar una revalorització generalitzada de les accions. L'estratègia de "comprar i mantenir" va guanyar un 34,10% en uns set mesos en una cistella de set accions. No es pot determinar a partir de les dades si les millores de l'agent LLM per sobre d'aquesta xifra reflecteixen un alfa genuí o només una presa de posicions més agressiva en un mercat alcista. De la mateixa manera, el període dels ETF abasta el crac del COVID i la recuperació — un règim tan anormal que qualsevol model que es tornés defensiu el març del 2020 semblaria premonitori.

L'anomalia de Palmyra-Fin-70B —catastròfica en accions, forta en ETF— no s'explica de manera satisfactòria. Si l'ajust de domini reorienta un model cap a horitzons temporals més llargs, això també s'hauria de reflectir en els resultats de les accions. El fet que no sigui així suggereix que el resultat pot ser soroll en una finestra de prova retroactiva curta en lloc d'una troballa fonamentada.

Tampoc hi ha una comparació amb línies base algorítmiques tradicionals (moment, reversió a la mitjana, models de factors). Utilitzar només "comprar i mantenir" com a línia base passiva estableix un llistó baix. Si un simple encreuament de mitjanes mòbils supera "comprar i mantenir" durant aquests períodes —cosa que sol passar en mercats amb tendència—, la comparació de l'agent sembla molt menys impressionant.

Finalment, l'avaluació comparativa només prova decisions d'un actiu únic. La gestió real de carteres requereix un dimensionament de posicions correlacionat, reequilibri i agregació de riscos que les tasques d'actiu únic no capten.

Per què això és important per a la IA en finances

L'arquitectura de memòria per nivells es trasllada directament a Beancount. Un agent de llibre major necessita raonar a diferents escales temporals simultàniament: què ha passat en la sessió d'importació d'avui (superficial), què revela un trimestre de transaccions sobre un pressupost (intermedi) i què diuen els patrons de diversos anys sobre la salut dels comptes (profund). L'esquema de 14/90/365 dies d'InvestorBench proporciona una plantilla de disseny concreta que val la pena manllevar, fins i tot si el context de compravenda difereix de la comptabilitat.

La troballa de Palmyra-Fin-70B també comporta un advertiment per als esforços d'ajust de Beancount. Un model entrenat extensament en text financer no pren automàticament millors decisions d'agent — la bretxa entre la fluïdesa en el llenguatge financer i la competència en el raonament financer és real. Si Bean Labs algun dia ajusta un model en la sintaxi de Beancount i les regles comptables, l'avaluació de l'agent ha de provar la qualitat de la decisió, no només el format de sortida.

L'absència en l'avaluació comparativa d'una prova de seguretat en l'escriptura és un buit clar que Bean Labs pot omplir. Els agents d'InvestorBench només poden perdre diners; els agents de Beancount poden corrompre un llibre major. El marc d'avaluació necessita una dimensió d'irreversibilitat que les avaluacions comparatives de compravenda no tenen motius per incloure.

Què llegir a continuació

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — l'arquitectura de memòria per nivells que InvestorBench amplia; llegir el disseny original clarifica què aporta realment InvestorBench.
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — explora la compravenda multiagent basada en debats, un contrast directe amb el resultat d'agent únic del registre de la setmana passada.
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — segons s'informa, avalua els agents amb dades de mercat en viu prospectives en lloc de proves retroactives històriques; aborda la preocupació pel biaix de supervivència que he plantejat aquí.