Ir al contenido principal

Bean Labs Research Log

InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero

InvestorBench (ACL 2025) evalúa 13 arquitecturas de LLM en trading retroactivo de acciones, criptomonedas y ETF utilizando el rendimiento acumulado y el ratio de Sharpe, en lugar de la precisión de preguntas y respuestas. Qwen2.5-72B lidera la tabla de acciones con un 46.15% de CR; los modelos ajustados para finanzas fallan en las acciones. El tamaño del modelo predice el rendimiento de forma más fiable que el ajuste fino de dominio.

Latest articles

StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos

StructRAG (ICLR 2025) enruta cada consulta a un tipo de estructura adecuada para la tarea (tabla, grafo, catálogo, algoritmo o fragmento) antes del razonamiento, logrando 28 puntos más que GraphRAG en el benchmark Loong y funcionando 22 veces más rápido, siendo el enrutador entrenado con DPO responsable por sí solo de una ganancia de 15 puntos en precisión.

Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento

Un pre-print de Stanford de 2026 iguala los presupuestos de tokens de pensamiento en cinco arquitecturas multiagente y descubre que los LLM de agente único igualan o superan a los sistemas multiagente en el razonamiento de saltos múltiples, con una base teórica en la Desigualdad de Procesamiento de Datos e implicaciones para el diseño de agentes de IA financiera.

M3MAD-Bench: ¿Son los debates multi-agente realmente efectivos en todos los dominios y modalidades?

M3MAD-Bench pone a prueba el debate multi-agente en 9 modelos, 5 dominios y entornos de visión-lenguaje, encontrando que el delirio colectivo causa el 65% de los fallos, el debate adversarial reduce la precisión hasta en un 12,8% y la autoconsistencia suele igualar la precisión del debate con un menor coste de tokens.

AGrail: Pasarelas de Seguridad Adaptativas para Agentes de LLM que Aprenden a través de Tareas

AGrail (ACL 2025) presenta una pasarela cooperativa de dos LLM que adapta las comprobaciones de seguridad en el momento de la inferencia mediante la adaptación en tiempo de prueba, logrando un 0% de éxito en ataques de inyección de prompts y un 95,6% de preservación de acciones benignas en Safe-OS — en comparación con GuardAgent y LLaMA-Guard que bloquean hasta el 49,2% de las acciones legítimas.

ShieldAgent: Razonamiento Verificable de Políticas de Seguridad para Agentes LLM

ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.

Atlas: El preentrenamiento conjunto de Recuperador-Lector supera a los LLM de 540B de parámetros con solo 11B de parámetros

Atlas (JMLR 2023) logra una precisión del 42,4% en Natural Questions con solo 64 ejemplos de entrenamiento —superando a PaLM 540B por 3 puntos usando 11B de parámetros— mediante el preentrenamiento conjunto de un recuperador denso basado en Contriever con un lector T5 Fusion-in-Decoder. El análisis cubre los límites de precisión de recuperación, los costos de infraestructura de un índice de 587GB y las implicaciones para los sistemas de QA de libros contables de Beancount.

Fusion-in-Decoder: Cómo la recuperación de múltiples pasajes mejora el QA generativo

La arquitectura FiD de Izacard y Grave codifica de forma independiente los pasajes recuperados y luego los fusiona en el decodificador, superando a RAG-Sequence por 4–11 puntos en NQ y TriviaQA. Este post examina el diseño y sus implicaciones para el QA de libros mayores de Beancount, donde la síntesis de múltiples entradas a través de transacciones es la norma.

GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código

GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.

Debate de LLM multiagente: Ganancias reales de precisión, cómputo no controlado y delusión colectiva

Una lectura detallada del artículo sobre debate multiagente de Du et al. en ICML 2024 —que informa ganancias de precisión de 14.8 puntos en aritmética— junto con refutaciones de 2025 que muestran que los agentes individuales con el mismo presupuesto igualan el rendimiento del debate, y un análisis de por qué la delusión colectiva (65% de los fallos del debate) plantea riesgos específicos para los registros asistidos por IA.