2026
- 15 de abril - FinBen: Evaluación comparativa de LLM en 36 tareas financieras — Implicaciones para la IA contable
- 16 de abril - Toolformer: Uso de herramientas autosupervisado y sus límites para la IA financiera
- 17 de abril - ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje
- 18 de abril - Benchmark FinMaster: Por qué los LLM obtienen un 96% en educación financiera pero un 3% en generación de estados financieros
- 19 de abril - PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros
- 20 de abril - Prompting de Cadena de Pensamiento: Compensaciones entre Precisión y Sensibilidad para la IA en Finanzas
- 21 de abril - IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart
- 22 de abril - ¿Pueden los LLM razonar sobre datos tabulares? Lo que cuatro evaluaciones nos dicen sobre la IA financiera
- 23 de abril - PAL: Modelos de Lenguaje Ayudados por Programas para Aritmética Financiera Confiable
- 24 de abril - Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento
- 25 de abril - Reflexion: Agentes de lenguaje que aprenden de los errores sin reentrenamiento
- 26 de abril - CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas
- 27 de abril - Árbol de Pensamientos: Resolución Deliberada de Problemas con Búsqueda de LLM
- 28 de abril - Los LLM aún no pueden autocorregir su razonamiento — Hallazgos de ICLR 2024 e implicaciones para la IA en finanzas
- 29 de abril - CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos
- 30 de abril - SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas reales de GitHub?
- 1 de mayo - SWE-agent: Cómo el diseño de interfaces desbloquea la ingeniería de software automatizada
- 2 de mayo - MemGPT: Gestión de contexto virtual para agentes de LLM
- 3 de mayo - Gorilla: Cómo el entrenamiento consciente de la recuperación reduce las alucinaciones de las API en los LLM del 78% al 11%
- 4 de mayo - AutoGen: Marcos de Conversación Multi-Agente para IA en Finanzas
- 5 de mayo - BloombergGPT y los límites de los LLM especializados en finanzas
- 6 de mayo - AgentBench: Evaluación de LLMs como agentes — Lecciones para la fiabilidad de la IA en finanzas
- 7 de mayo - HippoRAG: Memoria a largo plazo para LLMs inspirada en la neurobiología
- 8 de mayo - Voyager: Bibliotecas de habilidades como base para el aprendizaje permanente de agentes de IA
- 9 de mayo - Self-RAG: Recuperación Adaptativa y Autocrítica para LLMs
- 10 de mayo - LATS: Búsqueda en Árbol de Agentes de Lenguaje — Razonamiento, Acción y Planificación en un solo Marco
- 11 de mayo - DSPy: Reemplazando la Frágil Ingeniería de Prompts con Pipelines de LLM Compilados
- 12 de mayo - FinanceBench: Por qué el RAG de almacenamiento de vectores falla con documentos financieros reales
- 13 de mayo - FinQA: El benchmark que mide el razonamiento numérico de la IA en informes financieros
- 14 de mayo - TAT-QA: Benchmark de QA Híbrido de Tabla y Texto para el Razonamiento de Informes Financieros Anuales
- 15 de mayo - ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos
- 16 de mayo - MultiHiertt: Evaluación del razonamiento numérico en tablas financieras multi-jerárquicas
- 17 de mayo - Generación aumentada por recuperación para tareas de PLN con uso intensivo de conocimiento
- 18 de mayo - FLARE: Generación Aumentada por Recuperación Activa
- 19 de mayo - IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos
- 20 de mayo - Ajuste fino (Fine-Tuning) vs. RAG: Por qué la recuperación gana al inyectar nuevo conocimiento en LLMs
- 21 de mayo - TAT-LLM: LLaMA 2 ajustado para razonamiento discreto sobre tablas y textos financieros
- 22 de mayo - AuditCopilot: LLMs para la detección de fraude en contabilidad de partida doble
- 23 de mayo - Los LLM no son útiles para el pronóstico de series temporales: lo que NeurIPS 2024 significa para la IA financiera
- 24 de mayo - Debate de LLM multiagente: Ganancias reales de precisión, cómputo no controlado y delusión colectiva
- 25 de mayo - GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código
- 26 de mayo - Fusion-in-Decoder: Cómo la recuperación de múltiples pasajes mejora el QA generativo
- 27 de mayo - Atlas: El preentrenamiento conjunto de Recuperador-Lector supera a los LLM de 540B de parámetros con solo 11B de parámetros
- 28 de mayo - ShieldAgent: Razonamiento Verificable de Políticas de Seguridad para Agentes LLM
- 29 de mayo - AGrail: Pasarelas de Seguridad Adaptativas para Agentes de LLM que Aprenden a través de Tareas
- 30 de mayo - M3MAD-Bench: ¿Son los debates multi-agente realmente efectivos en todos los dominios y modalidades?
- 31 de mayo - Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento
- 1 de junio - StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos
- 2 de junio - InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero
- 3 de junio - FinAuditing: Los LLM obtienen una puntuación inferior al 14% en tareas reales de auditoría SEC XBRL
- 4 de junio - GraphRAG: Del Resumen Local al Global Enfocado en Consultas
- 5 de junio - Uso de herramientas verificablemente seguro para agentes de LLM: STPA se encuentra con MCP
- 6 de junio - Benchmark BIRD: La brecha de bases de datos reales en LLM Text-to-SQL
- 7 de junio - DIN-SQL: Aprendizaje en Contexto Descompuesto para Text-to-SQL
- 8 de junio - MAC-SQL: Text-to-SQL colaborativo multi-agente
- 9 de junio - TAPAS: Table QA débilmente supervisado sin SQL y qué significa para Beancount
- 10 de junio - TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?
- 11 de junio - Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM
- 12 de junio - τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real
- 13 de junio - WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real
- 14 de junio - WebArena: El benchmark de 812 tareas que mide lo que los agentes web realmente pueden y no pueden hacer
- 15 de junio - OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano
- 16 de junio - Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer
- 17 de junio - WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición
- 18 de junio - τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional
- 19 de junio - TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real
- 20 de junio - DocFinQA: Razonamiento financiero de contexto largo en presentaciones completas de la SEC
- 21 de junio - Detección de anomalías Zero-Shot con LLM: Cómo se desempeña GPT-4 en datos tabulares
- 22 de junio - TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs
- 23 de junio - Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy
- 24 de junio - AnoLLM: Ajuste Fino de LLMs para la Detección de Anomalías Tabulares en Datos Financieros
- 25 de junio - CausalTAD: Ordenación causal de columnas para la detección de anomalías en tablas con LLM
- 26 de junio - AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto
- 27 de junio - Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera
- 28 de junio - FinDER: Consultas Reales de Analistas Exponen una Brecha de Recuperación del 74% en RAG Financiero
- 29 de junio - Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades
- 30 de junio - OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera
- 1 de julio - Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes
- 2 de julio - Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo
- 3 de julio - Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente
- 4 de julio - OmniEval: Benchmark de evaluación RAG omnidireccional para el dominio financiero
- 5 de julio - FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real
- 6 de julio - FinTrace: Evaluación a Nivel de Trayectoria del Llamado a Herramientas de LLM para Tareas Financieras
- 7 de julio - FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP
- 8 de julio - JSONSchemaBench: La complejidad de los esquemas del mundo real rompe las garantías de salida estructurada de los LLM
- 9 de julio - Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente
- 10 de julio - WildToolBench: Por qué ningún LLM supera el 15% de precisión de sesión en el uso de herramientas en el mundo real
- 11 de julio - ¿Pueden los agentes de LLM ser Directores Financieros? La simulación de 132 meses de EnterpriseArena revela una brecha considerable
- 12 de julio - FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero
