Salta al contingut principal

Bean Labs Research Log

Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera

Un article Spotlight de NeurIPS 2024 analitza tres mètodes de previsió de sèries temporals basats en LLM —OneFitsAll, Time-LLM i CALF— i descobreix que eliminar el model de llenguatge millora la precisió en la majoria dels casos, amb una acceleració de l'entrenament de fins a 1.383 vegades. Per a aplicacions d'IA financera com la predicció del saldo de Beancount, els models lleugers dissenyats específicament superen constantment els LLM readaptats.

Latest articles

AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble

AuditCopilot aplica LLM de codi obert (Mistral-8B, Gemma, Llama-3.1) a la detecció de frau en assentaments comptables corporatius, reduint els falsos positius de 942 a 12 — però l'ablació revela que l'LLM funciona principalment com una capa de síntesi sobre les puntuacions d'Isolation Forest, no com un detector d'anomalies independent.

Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM

La comparació empírica de RAG vs. l'ajustament fi no supervisat en LLM de 7.000 milions de paràmetres mostra que el RAG aconsegueix una precisió de més de 0,875 en fets posteriors a la data de tall, mentre que l'ajustament fi s'estanca en 0,504, amb implicacions directes per al disseny d'agents de Beancount i qualsevol sistema que requereixi actualitzacions freqüents de coneixement.

IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos

IRCoT entrellaça la recuperació BM25 amb cada pas d'un bucle de raonament de cadena de pensament, aconseguint +11,3 en recuperació i +7,1 en F1 a HotpotQA respecte al RAG d'un sol pas — i demostra que un model de 3B pot superar el GPT-3 de 175B quan l'estratègia de recuperació és la correcta.

FLARE: Generació Augmentada per Recuperació Activa

FLARE (EMNLP 2023) millora el RAG estàndard activant la recuperació a mitja generació mitjançant llindars de confiança de probabilitat de tokens, assolint un 51,0 EM a 2WikiMultihopQA en comparació amb el 39,4 de la recuperació única — però els errors de calibratge en models de xat ajustats per instruccions limiten la seva fiabilitat per a agents financers de producció.

Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement

L'article de Lewis et al. per al NeurIPS 2020 va introduir l'arquitectura híbrida RAG —un generador BART-large emparellat amb un recuperador indexat per FAISS sobre 21 milions de passatges de la Viquipèdia— assolint un 44,5 d'EM en Natural Questions i establint la divisió paramètrica/no paramètrica que actualment sustenta la majoria de sistemes d'IA en producció. Aquesta revisió cobreix les compensacions entre RAG-Sequence i RAG-Token, el mode de fallada per col·lapse de recuperació i què signifiquen els índexs obsolets per a la IA financera basada en llibres de comptabilitat Beancount de només addició.

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.