EnterpriseArena posa a prova 11 LLM a través d'una simulació de CFO de 132 mesos seguint la supervivència, la valoració final i les taxes de tancament de llibres. Només Qwen3.5-9B sobreviu al 80% de les execucions; GPT-5.4 i DeepSeek-V3.1 arriben al 0%. Els experts humans aconsegueixen una supervivència del 100% amb 5 vegades el valor final. El coll d'ampolla crític: els LLM ometen la conciliació del llibre major el 80% de les vegades, actuant sobre un estat financer obsolet.
InvestorBench (ACL 2025) avalua 13 backbones de LLM en la compravenda retroactiva d'accions, criptomonedes i ETF utilitzant el rendiment acumulat i la ràtio de Sharpe — no la precisió de les respostes. Qwen2.5-72B lidera la classificació d'accions amb un 46,15% de CR; els models ajustats per a finances fracassen en les accions. La mida del model prediu el rendiment amb més fiabilitat que l'ajust d'especialització de domini.
Un article Spotlight de NeurIPS 2024 analitza tres mètodes de previsió de sèries temporals basats en LLM —OneFitsAll, Time-LLM i CALF— i descobreix que eliminar el model de llenguatge millora la precisió en la majoria dels casos, amb una acceleració de l'entrenament de fins a 1.383 vegades. Per a aplicacions d'IA financera com la predicció del saldo de Beancount, els models lleugers dissenyats específicament superen constantment els LLM readaptats.
FinBen avalua 15 LLM en 36 conjunts de dades financeres a NeurIPS 2024, trobant que GPT-4 arriba a un 0,63 de coincidència exacta en QA numèrica i un 0,54 en previsió de moviments de borsa — prop de l'atzar. Aquí teniu el que signifiquen aquestes xifres per a la creació d'un agent comptable fiable en un llibre major de Beancount.