8 publicaciones etiquetadas con "Technology"

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Por qué ningún LLM supera el 15% de precisión de sesión en el uso de herramientas en el mundo real

WildToolBench (ICLR 2026) evalúa 57 LLMs en 1.024 tareas extraídas del comportamiento real del usuario; ningún modelo supera el 15% de precisión por sesión, con la orquestación compositiva, la intención oculta y las transiciones de instrucciones como los tres modos de fallo más agudos.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

El artículo de TACL 2024 de Liu et al. muestra que los LLM rinden hasta 20 puntos peor con información enterrada en el medio de contextos largos —una degradación en forma de U que afecta a todos los modelos probados, incluido Claude-1.3-100K— con implicaciones concretas sobre cómo los pipelines de RAG deben ordenar los pasajes recuperados en aplicaciones de finanzas y contabilidad.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

OSWorld (NeurIPS 2024) evalúa agentes de IA multimodales en 369 tareas reales de escritorio en Ubuntu, Windows y macOS, encontrando una brecha de 60 puntos porcentuales entre el mejor modelo (12,24%) y el rendimiento humano (72,36%), con un 75% de los fallos atribuidos a errores de anclaje visuomotor en lugar de fallos de razonamiento.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos

StructRAG (ICLR 2025) enruta cada consulta a un tipo de estructura adecuada para la tarea (tabla, grafo, catálogo, algoritmo o fragmento) antes del razonamiento, logrando 28 puntos más que GraphRAG en el benchmark Loong y funcionando 22 veces más rápido, siendo el enrutador entrenado con DPO responsable por sí solo de una ganancia de 15 puntos en precisión.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento

Un pre-print de Stanford de 2026 iguala los presupuestos de tokens de pensamiento en cinco arquitecturas multiagente y descubre que los LLM de agente único igualan o superan a los sistemas multiagente en el razonamiento de saltos múltiples, con una base teórica en la Desigualdad de Procesamiento de Datos e implicaciones para el diseño de agentes de IA financiera.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Recuperación Adaptativa y Autocrítica para LLMs

Self-RAG (ICLR 2024 Oral) entrena un modelo de lenguaje para decidir cuándo recuperar información y luego calificar sus propios resultados utilizando cuatro tokens de reflexión, alcanzando un 55.8% en PopQA y un 80.2 de FactScore en biografías, superando a ChatGPT en cinco pruebas de rendimiento. El análisis cubre el mecanismo, los resultados de ablación, los límites de reproducibilidad y las implicaciones para los agentes de IA financiera sobre libros mayores de Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Evaluación de LLMs como agentes — Lecciones para la fiabilidad de la IA en finanzas

AgentBench (Liu et al., ICLR 2024) evalúa 27 LLM en 8 entornos interactivos: GPT-4 obtuvo una puntuación general de 4,01 frente a 0,96 del mejor modelo de código abierto. Los tres modos de fallo dominantes (límite de tareas excedido en el 67,9% de los fallos de grafos de conocimiento, errores de formato en el 53,3% de los fallos de bases de datos y acciones inválidas) se corresponden directamente con los riesgos de desplegar un agente de escritura de Beancount en un libro mayor real.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Gestión de contexto virtual para agentes de LLM

MemGPT aplica la paginación de memoria virtual al estilo de los sistemas operativos a los LLM, utilizando un almacenamiento de tres niveles (memoria de trabajo, recuperación y archivo) para dar a los agentes un recuerdo persistente entre sesiones; en pruebas de chat multisesión, MemGPT con GPT-4 alcanza una precisión del 92,5% frente a una base de referencia de contexto fijo del 32,1%.

Todo sobre Technology

WildToolBench: Por qué ningún LLM supera el 15% de precisión de sesión en el uso de herramientas en el mundo real

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

StructRAG (ICLR 2025): Elegir la estructura de documento correcta supera a GraphRAG por 28 puntos

Los LLM de agente único superan a los sistemas multiagente en el razonamiento de saltos múltiples bajo presupuestos iguales de tokens de pensamiento

Self-RAG: Recuperación Adaptativa y Autocrítica para LLMs

AgentBench: Evaluación de LLMs como agentes — Lecciones para la fiabilidad de la IA en finanzas

MemGPT: Gestión de contexto virtual para agentes de LLM

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal