Mike Thrift

Marketing Manager

June 6, 2026·mike

Benchmark BIRD: La brecha de bases de datos reales en LLM Text-to-SQL

El benchmark BIRD (NeurIPS 2023) evalúa los LLM en 95 bases de datos reales: GPT-4 alcanza solo un 54,89% de precisión de ejecución con pistas de dominio y un 34,88% sin ellas, una brecha de 20 puntos que define directamente lo que una interfaz BQL de lenguaje natural para Beancount necesitaría resolver.

beancount

llm

June 5, 2026·mike

Uso de herramientas verificablemente seguro para agentes de LLM: STPA se encuentra con MCP

Investigadores de CMU y NC State proponen el uso del Análisis de Procesos Sistémico-Teóricos (STPA) y un Protocolo de Contexto de Modelo mejorado con capacidades para derivar especificaciones de seguridad formales para el uso de herramientas por parte de agentes de LLM, con una verificación basada en Alloy que demuestra la ausencia de flujos inseguros en un caso de estudio de programación de calendarios.

llm

security

June 4, 2026·mike

GraphRAG: Del Resumen Local al Global Enfocado en Consultas

GraphRAG de Microsoft construye un grafo de entidades particionado por Leiden sobre un corpus de texto y precalcula resúmenes de comunidad para responder preguntas de comprensión global que el RAG vectorial estándar no puede manejar — pero una auditoría de sesgo de 2025 muestra que sus tasas de éxito del 72–83% colapsan tras corregir los artefactos de posición y longitud en la evaluación de LLM como juez.

llm

machine-learning

June 3, 2026·mike

FinAuditing: Los LLM obtienen una puntuación inferior al 14% en tareas reales de auditoría SEC XBRL

FinAuditing evalúa 13 LLM en modo zero-shot sobre 1,102 instancias reales de presentaciones SEC XBRL; las puntuaciones máximas son del 13.86% en verificación matemática financiera y del 12.42% en recuperación de conceptos, resultados que limitan directamente qué herramientas de contabilidad con IA pueden automatizarse de forma fiable sin herramientas externas.

llm

financial-reporting

June 2, 2026·mike

InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero

InvestorBench (ACL 2025) evalúa 13 arquitecturas de LLM en trading retroactivo de acciones, criptomonedas y ETF utilizando el rendimiento acumulado y el ratio de Sharpe, en lugar de la precisión de preguntas y respuestas. Qwen2.5-72B lidera la tabla de acciones con un 46.15% de CR; los modelos ajustados para finanzas fallan en las acciones. El tamaño del modelo predice el rendimiento de forma más fiable que el ajuste fino de dominio.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos

StructRAG (ICLR 2025) enruta cada consulta a un tipo de estructura adecuada para la tarea (tabla, grafo, catálogo, algoritmo o fragmento) antes del razonamiento, logrando 28 puntos más que GraphRAG en el benchmark Loong y funcionando 22 veces más rápido, siendo el enrutador entrenado con DPO responsable por sí solo de una ganancia de 15 puntos en precisión.

llm

machine-learning

May 31, 2026·mike

Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento

Un pre-print de Stanford de 2026 iguala los presupuestos de tokens de pensamiento en cinco arquitecturas multiagente y descubre que los LLM de agente único igualan o superan a los sistemas multiagente en el razonamiento de saltos múltiples, con una base teórica en la Desigualdad de Procesamiento de Datos e implicaciones para el diseño de agentes de IA financiera.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench: ¿Son los debates multi-agente realmente efectivos en todos los dominios y modalidades?

M3MAD-Bench pone a prueba el debate multi-agente en 9 modelos, 5 dominios y entornos de visión-lenguaje, encontrando que el delirio colectivo causa el 65% de los fallos, el debate adversarial reduce la precisión hasta en un 12,8% y la autoconsistencia suele igualar la precisión del debate con un menor coste de tokens.

llm

machine-learning

May 29, 2026·mike

AGrail: Pasarelas de Seguridad Adaptativas para Agentes de LLM que Aprenden a través de Tareas

AGrail (ACL 2025) presenta una pasarela cooperativa de dos LLM que adapta las comprobaciones de seguridad en el momento de la inferencia mediante la adaptación en tiempo de prueba, logrando un 0% de éxito en ataques de inyección de prompts y un 95,6% de preservación de acciones benignas en Safe-OS — en comparación con GuardAgent y LLaMA-Guard que bloquean hasta el 49,2% de las acciones legítimas.

llm

security

May 28, 2026·mike

ShieldAgent: Razonamiento Verificable de Políticas de Seguridad para Agentes LLM

ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.

llm

machine-learning

May 27, 2026·mike

Atlas: El preentrenamiento conjunto de Recuperador-Lector supera a los LLM de 540B de parámetros con solo 11B de parámetros

Atlas (JMLR 2023) logra una precisión del 42,4% en Natural Questions con solo 64 ejemplos de entrenamiento —superando a PaLM 540B por 3 puntos usando 11B de parámetros— mediante el preentrenamiento conjunto de un recuperador denso basado en Contriever con un lector T5 Fusion-in-Decoder. El análisis cubre los límites de precisión de recuperación, los costos de infraestructura de un índice de 587GB y las implicaciones para los sistemas de QA de libros contables de Beancount.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: Cómo la recuperación de múltiples pasajes mejora el QA generativo

La arquitectura FiD de Izacard y Grave codifica de forma independiente los pasajes recuperados y luego los fusiona en el decodificador, superando a RAG-Sequence por 4–11 puntos en NQ y TriviaQA. Este post examina el diseño y sus implicaciones para el QA de libros mayores de Beancount, donde la síntesis de múltiples entradas a través de transacciones es la norma.

machine-learning

llm

Mostrando 37–48 de 87 artículos

Anterior4 / 8Siguiente