Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

OpenHands es una plataforma de agentes con licencia MIT y entorno de pruebas Docker donde CodeAct logra un 26% en SWE-Bench Lite — un benchmark revelador que establece lo que los agentes de IA pueden hacer de manera confiable hoy en día, y por qué los primeros despliegues financieros productivos deben tener un alcance limitado en lugar de ser autónomos.

open-source

automation

June 29, 2026·mike

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Fin-RATE evalúa 17 LLM con 7,500 pares de preguntas y respuestas seleccionados por expertos a partir de 2,472 presentaciones de la SEC, revelando un colapso de precisión del 18.60% en el seguimiento longitudinal y una caída de 54 puntos para el modelo especializado Fin-R1 en tareas entre entidades, señalando al sistema de recuperación, y no al modelo base, como el cuello de botella limitante.

llm

machine-learning

June 28, 2026·mike

FinDER: Consultas Reales de Analistas Exponen una Brecha de Recuperación del 74% en RAG Financiero

FinDER evalúa RAG sobre 5,703 consultas reales de analistas de fondos de cobertura frente a presentaciones 10-K del S&P 500; E5-Mistral logra solo un 25.95% de recuperación de contexto, y las consultas con muchas abreviaturas cuestan 8.2 puntos de precisión — evidencia de que la normalización de consultas, y no mejores embeddings, es la primera solución para los pipelines de IA en finanzas.

llm

machine-learning

June 27, 2026·mike

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

El artículo de TACL 2024 de Liu et al. muestra que los LLM rinden hasta 20 puntos peor con información enterrada en el medio de contextos largos —una degradación en forma de U que afecta a todos los modelos probados, incluido Claude-1.3-100K— con implicaciones concretas sobre cómo los pipelines de RAG deben ordenar los pasajes recuperados en aplicaciones de finanzas y contabilidad.

llm

machine-learning

June 26, 2026·mike

AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto

AD-LLM evalúa GPT-4o y Llama 3.1 8B en tres roles de detección de anomalías (detector zero-shot, aumentador de datos y selector de modelos) en cinco conjuntos de datos de PNL; GPT-4o alcanza un AUROC de 0,93–0,99 en zero-shot, pero la selección de modelos basada en LLM sigue siendo poco fiable, con implicaciones directas para la IA en auditoría financiera.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Ordenación causal de columnas para la detección de anomalías en tablas con LLM

CausalTAD mejora la detección de anomalías en tablas basada en LLM al reordenar las columnas de la tabla para respetar las dependencias causales antes de la serialización, elevando el AUC-ROC promedio de 0.803 a 0.834 sobre AnoLLM en evaluaciones de tipos mixtos — con implicaciones directas para detectar anomalías en datos estructurados de libros contables.

llm

machine-learning

June 24, 2026·mike

AnoLLM: Ajuste Fino de LLMs para la Detección de Anomalías Tabulares en Datos Financieros

AnoLLM (ICLR 2025) reformula la detección de anomalías tabulares como una estimación de densidad de LLM: entrenamiento mediante ajuste fino con filas normales y puntuación mediante verosimilitud logarítmica negativa. Supera a los métodos clásicos en conjuntos de datos de fraude de tipo mixto, pero no ofrece ventajas en datos puramente numéricos, lo que tiene implicaciones reales para la detección de anomalías en los asientos contables de Beancount.

llm

machine-learning

June 23, 2026·mike

Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinco modelos de pesos abiertos de ~7B generan transacciones de Beancount totalmente correctas solo el 2,3% de las veces, con fallos concentrados en el razonamiento contable —no en la sintaxis—, lo que señala al feedback del compilador en el bucle como el ingrediente crítico que falta para agentes de escritura fiables.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

TableMaster es un pipeline basado únicamente en prompts que alcanza un 78.13% en WikiTQ con GPT-4o-mini —13 puntos por encima de Chain-of-Table— mediante la combinación de extracción de tabla de enfoque, verbalización semántica y cambio adaptativo entre el razonamiento textual y simbólico. He aquí lo que esta arquitectura significa para los agentes de IA sobre libros contables financieros como Beancount.

llm

machine-learning

June 21, 2026·mike

Detección de anomalías Zero-Shot con LLM: Cómo se desempeña GPT-4 en datos tabulares

GPT-4 logra un AUROC medio de 74,1 en el benchmark ODDS sin ajuste fino, casi igualando la línea base clásica ECOD de 75,5, pero falla en anomalías multidimensionales y conjuntos de datos de alta varianza; una revisión crítica de la detección de anomalías zero-shot con LLM y sus implicaciones para la auditoría automatizada de libros mayores en Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Razonamiento financiero de contexto largo en presentaciones completas de la SEC

DocFinQA sustituye los pasajes curados de 700 palabras de FinQA por presentaciones completas ante la SEC de 123.000 palabras, exponiendo un aumento de contexto de 175 veces que casi reduce a la mitad la precisión de GPT-4 en documentos largos. Los canales de recuperación no logran extraer el fragmento correcto el 45% de las veces en HR@3, y los modelos de contexto largo no son un sustituto.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real

TheAgentCompany pone a prueba 175 tareas reales en el lugar de trabajo a través de una intranet simulada con GitLab, OwnCloud y RocketChat. El mejor modelo (Gemini-2.5-Pro) completa solo el 30% de las tareas a un costo de $4 cada una, revelando que los agentes autónomos aún están lejos de ser viables para los flujos de trabajo de contabilidad y finanzas.

llm

automation

Mostrando 13–24 de 87 artículos

Anterior2 / 8Siguiente