Ir al contenido principal

Bean Labs Research Log

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

TableMaster es un pipeline basado únicamente en prompts que alcanza un 78.13% en WikiTQ con GPT-4o-mini —13 puntos por encima de Chain-of-Table— mediante la combinación de extracción de tabla de enfoque, verbalización semántica y cambio adaptativo entre el razonamiento textual y simbólico. He aquí lo que esta arquitectura significa para los agentes de IA sobre libros contables financieros como Beancount.

Latest articles

Detección de anomalías Zero-Shot con LLM: Cómo se desempeña GPT-4 en datos tabulares

GPT-4 logra un AUROC medio de 74,1 en el benchmark ODDS sin ajuste fino, casi igualando la línea base clásica ECOD de 75,5, pero falla en anomalías multidimensionales y conjuntos de datos de alta varianza; una revisión crítica de la detección de anomalías zero-shot con LLM y sus implicaciones para la auditoría automatizada de libros mayores en Beancount.

DocFinQA: Razonamiento financiero de contexto largo en presentaciones completas de la SEC

DocFinQA sustituye los pasajes curados de 700 palabras de FinQA por presentaciones completas ante la SEC de 123.000 palabras, exponiendo un aumento de contexto de 175 veces que casi reduce a la mitad la precisión de GPT-4 en documentos largos. Los canales de recuperación no logran extraer el fragmento correcto el 45% de las veces en HR@3, y los modelos de contexto largo no son un sustituto.

TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real

TheAgentCompany pone a prueba 175 tareas reales en el lugar de trabajo a través de una intranet simulada con GitLab, OwnCloud y RocketChat. El mejor modelo (Gemini-2.5-Pro) completa solo el 30% de las tareas a un costo de $4 cada una, revelando que los agentes autónomos aún están lejos de ser viables para los flujos de trabajo de contabilidad y finanzas.

τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional

τ²-bench extiende las pruebas de rendimiento de agentes a entornos de control dual donde tanto la IA como el usuario invocan herramientas sobre un estado compartido — encontrando que los usuarios activos reducen las tasas de éxito en 18–25 puntos porcentuales, con implicaciones directas para los agentes de Beancount que comparten acceso de escritura con usuarios humanos.

WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición

WorkArena++ (NeurIPS 2024) evalúa 682 tareas empresariales de composición en tres niveles de dificultad. GPT-4o resuelve el 2,1% de ellas, mientras que los humanos resuelven el 93,9%, aislando exactamente por qué los agentes de IA actuales fallan en el trabajo de conocimiento con objetivos implícitos y por qué esa brecha es importante para la automatización contable autónoma.

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

GAIA evalúa 466 tareas del mundo real en tres niveles de dificultad; los agentes de vanguardia alcanzaron el 74.55% a mediados de 2026 frente al 92% de los humanos, y la brecha restante del Nivel 3 se vincula directamente con los desafíos de coordinación de múltiples pasos en los flujos de trabajo automatizados de libros contables de Beancount.

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

OSWorld (NeurIPS 2024) evalúa agentes de IA multimodales en 369 tareas reales de escritorio en Ubuntu, Windows y macOS, encontrando una brecha de 60 puntos porcentuales entre el mejor modelo (12,24%) y el rendimiento humano (72,36%), con un 75% de los fallos atribuidos a errores de anclaje visuomotor en lugar de fallos de razonamiento.

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.