Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional

τ²-bench extiende las pruebas de rendimiento de agentes a entornos de control dual donde tanto la IA como el usuario invocan herramientas sobre un estado compartido — encontrando que los usuarios activos reducen las tasas de éxito en 18–25 puntos porcentuales, con implicaciones directas para los agentes de Beancount que comparten acceso de escritura con usuarios humanos.

llm

automation

June 17, 2026·mike

WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición

WorkArena++ (NeurIPS 2024) evalúa 682 tareas empresariales de composición en tres niveles de dificultad. GPT-4o resuelve el 2,1% de ellas, mientras que los humanos resuelven el 93,9%, aislando exactamente por qué los agentes de IA actuales fallan en el trabajo de conocimiento con objetivos implícitos y por qué esa brecha es importante para la automatización contable autónoma.

llm

automation

June 16, 2026·mike

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

GAIA evalúa 466 tareas del mundo real en tres niveles de dificultad; los agentes de vanguardia alcanzaron el 74.55% a mediados de 2026 frente al 92% de los humanos, y la brecha restante del Nivel 3 se vincula directamente con los desafíos de coordinación de múltiples pasos en los flujos de trabajo automatizados de libros contables de Beancount.

llm

machine-learning

June 15, 2026·mike

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

OSWorld (NeurIPS 2024) evalúa agentes de IA multimodales en 369 tareas reales de escritorio en Ubuntu, Windows y macOS, encontrando una brecha de 60 puntos porcentuales entre el mejor modelo (12,24%) y el rendimiento humano (72,36%), con un 75% de los fallos atribuidos a errores de anclaje visuomotor en lugar de fallos de razonamiento.

machine-learning

automation

June 14, 2026·mike

WebArena: El benchmark de 812 tareas que mide lo que los agentes web realmente pueden y no pueden hacer

GPT-4 completa solo el 14,41% de las 812 tareas web realistas de WebArena, mientras que los humanos alcanzan el 78,24%; el modo de fallo dominante es la falsa inviabilidad (un rechazo conservador a actuar), con implicaciones directas para cualquier agente que opere Fava o interfaces web financieras.

llm

automation

June 13, 2026·mike

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.

llm

automation

June 12, 2026·mike

τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real

τ-bench muestra que los LLM de primer nivel como Claude 3.5 Sonnet caen de un pass@1 de 0.692 a un pass@4 de 0.462 en tareas de servicio al cliente minorista — un abismo de consistencia con implicaciones directas para cualquier agente de escritura que opere en un libro mayor de Beancount.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

Chain-of-Table (ICLR 2024) mejora el razonamiento tabular de los LLM al evolucionar la propia tabla como estado intermedio, logrando un 67,31 % en WikiTQ frente al 61,48 % de las líneas base anteriores, con una ventaja de +10,25 puntos en tablas que superan los 4.000 tokens y aplicabilidad directa a agentes de consulta de libros mayores de Beancount.

llm

machine-learning

June 10, 2026·mike

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

TableLlama ajusta Llama 2 (7B) con 2,6 millones de ejemplos de tareas de tablas y supera a GPT-4 en tareas estructurales como la anotación de tipos de columnas (F1 94 vs 32), pero queda 33 puntos por debajo en el razonamiento compositivo de WikiTQ; un referente calibrado de lo que los modelos abiertos de 7B pueden y no pueden hacer hoy en la IA financiera.

llm

machine-learning

June 9, 2026·mike

TAPAS: Table QA débilmente supervisado sin SQL y qué significa para Beancount

TAPAS (Google Research, ACL 2020) responde preguntas sobre tablas seleccionando celdas y aplicando agregaciones escalares, sin generar SQL. Este post analiza la arquitectura, su ganancia de precisión de 12 puntos en SQA y por qué el paradigma de selección de celdas se adapta a consultas pequeñas de libros mayores de Beancount pero falla a gran escala.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Text-to-SQL colaborativo multi-agente

MAC-SQL (COLING 2025) utiliza tres agentes especializados — Selector para la reducción de esquemas, Decomposer para la descomposición de preguntas y Refiner para la corrección de SQL guiada por la ejecución — para alcanzar una precisión de ejecución del 59,59% en el benchmark BIRD; la ablación muestra que el Refiner es el que más contribuye (+4,63 puntos), con implicaciones directas para la generación de consultas en libros mayores de Beancount.

machine-learning

database

June 7, 2026·mike

DIN-SQL: Aprendizaje en Contexto Descompuesto para Text-to-SQL

DIN-SQL (NeurIPS 2023) descompone text-to-SQL en etapas de vinculación de esquemas, clasificación de complejidad y generación de SQL, elevando la precisión de ejecución de GPT-4 en Spider del 67.4% al 85.3% sin ajuste fino — y la misma estrategia de descomposición se aplica directamente a las interfaces de lenguaje natural para el lenguaje de consulta BQL de Beancount.

llm

database

Mostrando 25–36 de 87 artículos

Anterior3 / 8Siguiente