Ir al contenido principal

Bean Labs Research Log

Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera

Un artículo Spotlight de NeurIPS 2024 analiza tres métodos de pronóstico de series temporales basados en LLM (OneFitsAll, Time-LLM y CALF) y descubre que eliminar el modelo de lenguaje mejora la precisión en la mayoría de los casos, con una aceleración del entrenamiento de hasta 1,383 veces. Para aplicaciones de IA financiera como la predicción de saldos en Beancount, los modelos ligeros diseñados específicamente superan consistentemente a los LLM reutilizados.

Latest articles

AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble

AuditCopilot aplica LLMs de código abierto (Mistral-8B, Gemma, Llama-3.1) a la detección de fraude en asientos de diario corporativos, reduciendo los falsos positivos de 942 a 12; sin embargo, la ablación revela que el LLM funciona principalmente como una capa de síntesis sobre las puntuaciones de Isolation Forest, no como un detector de anomalías independiente.

Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs

La comparación empírica de RAG frente al ajuste fino no supervisado en LLMs de 7 mil millones de parámetros muestra que RAG alcanza una precisión de más de 0,875 en hechos posteriores al corte de conocimiento, mientras que el ajuste fino se estanca en 0,504, con implicaciones directas para el diseño de agentes de Beancount y cualquier sistema que requiera actualizaciones frecuentes de conocimiento.

FLARE: Generación Aumentada por Recuperación Activa

FLARE (EMNLP 2023) mejora el RAG estándar al activar la recuperación a mitad de la generación mediante umbrales de confianza de probabilidad de tokens, alcanzando un 51.0 EM en 2WikiMultihopQA frente al 39.4 de la recuperación única; sin embargo, los fallos de calibración en los modelos de chat ajustados por instrucciones limitan su fiabilidad para agentes financieros de producción.

Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento

El artículo de Lewis et al. de NeurIPS 2020 introdujo la arquitectura híbrida RAG —un generador BART-large emparejado con un recuperador indexado por FAISS sobre 21 millones de pasajes de Wikipedia— logrando 44.5 EM en Natural Questions y estableciendo la división paramétrica/no paramétrica que ahora subyace en la mayoría de los sistemas de IA en producción. Esta revisión cubre los compromisos entre RAG-Sequence y RAG-Token, el modo de fallo de colapso de recuperación y lo que significan los índices obsoletos para la IA financiera construida sobre libros de contabilidad Beancount de solo adición.

MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas

MultiHiertt (ACL 2022) presenta 10,440 pares de preguntas y respuestas de informes financieros reales con un promedio de 3.89 tablas jerárquicas cada uno; los modelos de vanguardia obtienen un F1 del 38% frente al 87% de los humanos, con una penalización de 15 puntos para las preguntas entre tablas, cuantificando la brecha de recuperación que la IA financiera debe cerrar.

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.

TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales

TAT-QA es un benchmark de 16.552 preguntas sobre contextos de informes financieros híbridos de tabla más texto que demostró que la fundamentación en la evidencia —no la aritmética— es el cuello de botella central en la IA financiera; para 2024, los LLM de 7B ajustados alcanzaron un 83% de F1, cerrando la mayor parte de la brecha frente al techo humano del 91%.