Bean Labs Research Log

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Razonamiento Adaptativo para la Comprensión de Tablas con LLMs

TableMaster es un pipeline basado únicamente en prompts que alcanza un 78.13% en WikiTQ con GPT-4o-mini —13 puntos por encima de Chain-of-Table— mediante la combinación de extracción de tabla de enfoque, verbalización semántica y cambio adaptativo entre el razonamiento textual y simbólico. He aquí lo que esta arquitectura significa para los agentes de IA sobre libros contables financieros como Beancount.

Latest articles

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

Detección de anomalías Zero-Shot con LLM: Cómo se desempeña GPT-4 en datos tabulares

GPT-4 logra un AUROC medio de 74,1 en el benchmark ODDS sin ajuste fino, casi igualando la línea base clásica ECOD de 75,5, pero falla en anomalías multidimensionales y conjuntos de datos de alta varianza; una revisión crítica de la detección de anomalías zero-shot con LLM y sus implicaciones para la auditoría automatizada de libros mayores en Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Razonamiento financiero de contexto largo en presentaciones completas de la SEC

DocFinQA sustituye los pasajes curados de 700 palabras de FinQA por presentaciones completas ante la SEC de 123.000 palabras, exponiendo un aumento de contexto de 175 veces que casi reduce a la mitad la precisión de GPT-4 en documentos largos. Los canales de recuperación no logran extraer el fragmento correcto el 45% de las veces en HR@3, y los modelos de contexto largo no son un sustituto.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real

TheAgentCompany pone a prueba 175 tareas reales en el lugar de trabajo a través de una intranet simulada con GitLab, OwnCloud y RocketChat. El mejor modelo (Gemini-2.5-Pro) completa solo el 30% de las tareas a un costo de $4 cada una, revelando que los agentes autónomos aún están lejos de ser viables para los flujos de trabajo de contabilidad y finanzas.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Midiendo el costo del control dual en agentes de IA conversacional

τ²-bench extiende las pruebas de rendimiento de agentes a entornos de control dual donde tanto la IA como el usuario invocan herramientas sobre un estado compartido — encontrando que los usuarios activos reducen las tasas de éxito en 18–25 puntos porcentuales, con implicaciones directas para los agentes de Beancount que comparten acceso de escritura con usuarios humanos.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: La brecha del 93% entre el rendimiento humano y el de los agentes de IA en tareas empresariales de composición

WorkArena++ (NeurIPS 2024) evalúa 682 tareas empresariales de composición en tres niveles de dificultad. GPT-4o resuelve el 2,1% de ellas, mientras que los humanos resuelven el 93,9%, aislando exactamente por qué los agentes de IA actuales fallan en el trabajo de conocimiento con objetivos implícitos y por qué esa brecha es importante para la automatización contable autónoma.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Benchmark GAIA: Midiendo lo que los agentes de IA de vanguardia realmente pueden hacer

GAIA evalúa 466 tareas del mundo real en tres niveles de dificultad; los agentes de vanguardia alcanzaron el 74.55% a mediados de 2026 frente al 92% de los humanos, y la brecha restante del Nivel 3 se vincula directamente con los desafíos de coordinación de múltiples pasos en los flujos de trabajo automatizados de libros contables de Beancount.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Los agentes de IA de escritorio superan el 12% de las tareas, frente al 72% de éxito humano

OSWorld (NeurIPS 2024) evalúa agentes de IA multimodales en 369 tareas reales de escritorio en Ubuntu, Windows y macOS, encontrando una brecha de 60 puntos porcentuales entre el mejor modelo (12,24%) y el rendimiento humano (72,36%), con un 75% de los fallos atribuidos a errores de anclaje visuomotor en lugar de fallos de razonamiento.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: El benchmark de 812 tareas que mide lo que los agentes web realmente pueden y no pueden hacer

GPT-4 completa solo el 14,41% de las 812 tareas web realistas de WebArena, mientras que los humanos alcanzan el 78,24%; el modo de fallo dominante es la falsa inviabilidad (un rechazo conservador a actuar), con implicaciones directas para cualquier agente que opere Fava o interfaces web financieras.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Cómo se desempeñan los agentes web de LLM en el trabajo de conocimiento empresarial real

WorkArena evalúa agentes web de LLM en 33 tareas reales de ServiceNow; GPT-4o alcanza un 42,7% global pero un 0% en tareas de filtrado de listas, exponiendo una barrera crítica entre el llenado de formularios y la interacción de interfaz de usuario estructurada que se traduce directamente en desafíos para la automatización de libros de Beancount.

Comience con Beancount.io

Tome el control de sus finanzas con nuestro sistema de contabilidad de partida doble de código abierto. Comience su libro mayor hoy mismo.

Comenzar gratis Ver precios

Construido con transparencia • Controlado por versiones • Impulsado por IA