Mike Thrift
Marketing Manager
Benchmark BIRD: La brecha de bases de datos reales en LLM Text-to-SQL
El benchmark BIRD (NeurIPS 2023) evalúa los LLM en 95 bases de datos reales: GPT-4 alcanza solo un 54,89% de precisión de ejecución con pistas de dominio y un 34,88% sin ellas, una brecha de 20 puntos que define directamente lo que una interfaz BQL de lenguaje natural para Beancount necesitaría resolver.
Uso de herramientas verificablemente seguro para agentes de LLM: STPA se encuentra con MCP
Investigadores de CMU y NC State proponen el uso del Análisis de Procesos Sistémico-Teóricos (STPA) y un Protocolo de Contexto de Modelo mejorado con capacidades para derivar especificaciones de seguridad formales para el uso de herramientas por parte de agentes de LLM, con una verificación basada en Alloy que demuestra la ausencia de flujos inseguros en un caso de estudio de programación de calendarios.
GraphRAG: Del Resumen Local al Global Enfocado en Consultas
GraphRAG de Microsoft construye un grafo de entidades particionado por Leiden sobre un corpus de texto y precalcula resúmenes de comunidad para responder preguntas de comprensión global que el RAG vectorial estándar no puede manejar — pero una auditoría de sesgo de 2025 muestra que sus tasas de éxito del 72–83% colapsan tras corregir los artefactos de posición y longitud en la evaluación de LLM como juez.
FinAuditing: Los LLM obtienen una puntuación inferior al 14% en tareas reales de auditoría SEC XBRL
FinAuditing evalúa 13 LLM en modo zero-shot sobre 1,102 instancias reales de presentaciones SEC XBRL; las puntuaciones máximas son del 13.86% en verificación matemática financiera y del 12.42% en recuperación de conceptos, resultados que limitan directamente qué herramientas de contabilidad con IA pueden automatizarse de forma fiable sin herramientas externas.
InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero
InvestorBench (ACL 2025) evalúa 13 arquitecturas de LLM en trading retroactivo de acciones, criptomonedas y ETF utilizando el rendimiento acumulado y el ratio de Sharpe, en lugar de la precisión de preguntas y respuestas. Qwen2.5-72B lidera la tabla de acciones con un 46.15% de CR; los modelos ajustados para finanzas fallan en las acciones. El tamaño del modelo predice el rendimiento de forma más fiable que el ajuste fino de dominio.
StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos
StructRAG (ICLR 2025) enruta cada consulta a un tipo de estructura adecuada para la tarea (tabla, grafo, catálogo, algoritmo o fragmento) antes del razonamiento, logrando 28 puntos más que GraphRAG en el benchmark Loong y funcionando 22 veces más rápido, siendo el enrutador entrenado con DPO responsable por sí solo de una ganancia de 15 puntos en precisión.
Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento
Un pre-print de Stanford de 2026 iguala los presupuestos de tokens de pensamiento en cinco arquitecturas multiagente y descubre que los LLM de agente único igualan o superan a los sistemas multiagente en el razonamiento de saltos múltiples, con una base teórica en la Desigualdad de Procesamiento de Datos e implicaciones para el diseño de agentes de IA financiera.
M3MAD-Bench: ¿Son los debates multi-agente realmente efectivos en todos los dominios y modalidades?
M3MAD-Bench pone a prueba el debate multi-agente en 9 modelos, 5 dominios y entornos de visión-lenguaje, encontrando que el delirio colectivo causa el 65% de los fallos, el debate adversarial reduce la precisión hasta en un 12,8% y la autoconsistencia suele igualar la precisión del debate con un menor coste de tokens.
AGrail: Pasarelas de Seguridad Adaptativas para Agentes de LLM que Aprenden a través de Tareas
AGrail (ACL 2025) presenta una pasarela cooperativa de dos LLM que adapta las comprobaciones de seguridad en el momento de la inferencia mediante la adaptación en tiempo de prueba, logrando un 0% de éxito en ataques de inyección de prompts y un 95,6% de preservación de acciones benignas en Safe-OS — en comparación con GuardAgent y LLaMA-Guard que bloquean hasta el 49,2% de las acciones legítimas.
ShieldAgent: Razonamiento Verificable de Políticas de Seguridad para Agentes LLM
ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.
Atlas: El preentrenamiento conjunto de Recuperador-Lector supera a los LLM de 540B de parámetros con solo 11B de parámetros
Atlas (JMLR 2023) logra una precisión del 42,4% en Natural Questions con solo 64 ejemplos de entrenamiento —superando a PaLM 540B por 3 puntos usando 11B de parámetros— mediante el preentrenamiento conjunto de un recuperador denso basado en Contriever con un lector T5 Fusion-in-Decoder. El análisis cubre los límites de precisión de recuperación, los costos de infraestructura de un índice de 587GB y las implicaciones para los sistemas de QA de libros contables de Beancount.
Fusion-in-Decoder: Cómo la recuperación de múltiples pasajes mejora el QA generativo
La arquitectura FiD de Izacard y Grave codifica de forma independiente los pasajes recuperados y luego los fusiona en el decodificador, superando a RAG-Sequence por 4–11 puntos en NQ y TriviaQA. Este post examina el diseño y sus implicaciones para el QA de libros mayores de Beancount, donde la síntesis de múltiples entradas a través de transacciones es la norma.