Ir al contenido principal

Bean Labs Research Log

Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo

Una calibración en tiempo de inferencia sin entrenamiento resta el sesgo posicional de los pesos de atención de los LLM, recuperando hasta 15 puntos porcentuales de precisión de RAG cuando los documentos recuperados están enterrados en el medio del contexto — y lo que esto significa para los flujos de agentes específicos de finanzas.

Latest articles

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.

OpenHands: Plataforma abierta para agentes de software de IA y lo que significa para la automatización financiera

OpenHands es una plataforma de agentes con licencia MIT y entorno de pruebas Docker donde CodeAct logra un 26% en SWE-Bench Lite — un benchmark revelador que establece lo que los agentes de IA pueden hacer de manera confiable hoy en día, y por qué los primeros despliegues financieros productivos deben tener un alcance limitado en lugar de ser autónomos.

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Fin-RATE evalúa 17 LLM con 7,500 pares de preguntas y respuestas seleccionados por expertos a partir de 2,472 presentaciones de la SEC, revelando un colapso de precisión del 18.60% en el seguimiento longitudinal y una caída de 54 puntos para el modelo especializado Fin-R1 en tareas entre entidades, señalando al sistema de recuperación, y no al modelo base, como el cuello de botella limitante.

FinDER: Consultas Reales de Analistas Exponen una Brecha de Recuperación del 74% en RAG Financiero

FinDER evalúa RAG sobre 5,703 consultas reales de analistas de fondos de cobertura frente a presentaciones 10-K del S&P 500; E5-Mistral logra solo un 25.95% de recuperación de contexto, y las consultas con muchas abreviaturas cuestan 8.2 puntos de precisión — evidencia de que la normalización de consultas, y no mejores embeddings, es la primera solución para los pipelines de IA en finanzas.

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

El artículo de TACL 2024 de Liu et al. muestra que los LLM rinden hasta 20 puntos peor con información enterrada en el medio de contextos largos —una degradación en forma de U que afecta a todos los modelos probados, incluido Claude-1.3-100K— con implicaciones concretas sobre cómo los pipelines de RAG deben ordenar los pasajes recuperados en aplicaciones de finanzas y contabilidad.

AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto

AD-LLM evalúa GPT-4o y Llama 3.1 8B en tres roles de detección de anomalías (detector zero-shot, aumentador de datos y selector de modelos) en cinco conjuntos de datos de PNL; GPT-4o alcanza un AUROC de 0,93–0,99 en zero-shot, pero la selección de modelos basada en LLM sigue siendo poco fiable, con implicaciones directas para la IA en auditoría financiera.

CausalTAD: Ordenación causal de columnas para la detección de anomalías en tablas con LLM

CausalTAD mejora la detección de anomalías en tablas basada en LLM al reordenar las columnas de la tabla para respetar las dependencias causales antes de la serialización, elevando el AUC-ROC promedio de 0.803 a 0.834 sobre AnoLLM en evaluaciones de tipos mixtos — con implicaciones directas para detectar anomalías en datos estructurados de libros contables.

AnoLLM: Ajuste Fino de LLMs para la Detección de Anomalías Tabulares en Datos Financieros

AnoLLM (ICLR 2025) reformula la detección de anomalías tabulares como una estimación de densidad de LLM: entrenamiento mediante ajuste fino con filas normales y puntuación mediante verosimilitud logarítmica negativa. Supera a los métodos clásicos en conjuntos de datos de fraude de tipo mixto, pero no ofrece ventajas en datos puramente numéricos, lo que tiene implicaciones reales para la detección de anomalías en los asientos contables de Beancount.

Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinco modelos de pesos abiertos de ~7B generan transacciones de Beancount totalmente correctas solo el 2,3% de las veces, con fallos concentrados en el razonamiento contable —no en la sintaxis—, lo que señala al feedback del compilador en el bucle como el ingrediente crítico que falta para agentes de escritura fiables.