Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

Chain-of-Table (ICLR 2024) mejora el razonamiento tabular de los LLM al evolucionar la propia tabla como estado intermedio, logrando un 67,31 % en WikiTQ frente al 61,48 % de las líneas base anteriores, con una ventaja de +10,25 puntos en tablas que superan los 4.000 tokens y aplicabilidad directa a agentes de consulta de libros mayores de Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

TableLlama ajusta Llama 2 (7B) con 2,6 millones de ejemplos de tareas de tablas y supera a GPT-4 en tareas estructurales como la anotación de tipos de columnas (F1 94 vs 32), pero queda 33 puntos por debajo en el razonamiento compositivo de WikiTQ; un referente calibrado de lo que los modelos abiertos de 7B pueden y no pueden hacer hoy en la IA financiera.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Table QA débilmente supervisado sin SQL y qué significa para Beancount

TAPAS (Google Research, ACL 2020) responde preguntas sobre tablas seleccionando celdas y aplicando agregaciones escalares, sin generar SQL. Este post analiza la arquitectura, su ganancia de precisión de 12 puntos en SQA y por qué el paradigma de selección de celdas se adapta a consultas pequeñas de libros mayores de Beancount pero falla a gran escala.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Text-to-SQL colaborativo multi-agente

MAC-SQL (COLING 2025) utiliza tres agentes especializados — Selector para la reducción de esquemas, Decomposer para la descomposición de preguntas y Refiner para la corrección de SQL guiada por la ejecución — para alcanzar una precisión de ejecución del 59,59% en el benchmark BIRD; la ablación muestra que el Refiner es el que más contribuye (+4,63 puntos), con implicaciones directas para la generación de consultas en libros mayores de Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Aprendizaje en Contexto Descompuesto para Text-to-SQL

DIN-SQL (NeurIPS 2023) descompone text-to-SQL en etapas de vinculación de esquemas, clasificación de complejidad y generación de SQL, elevando la precisión de ejecución de GPT-4 en Spider del 67.4% al 85.3% sin ajuste fino — y la misma estrategia de descomposición se aplica directamente a las interfaces de lenguaje natural para el lenguaje de consulta BQL de Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

Benchmark BIRD: La brecha de bases de datos reales en LLM Text-to-SQL

El benchmark BIRD (NeurIPS 2023) evalúa los LLM en 95 bases de datos reales: GPT-4 alcanza solo un 54,89% de precisión de ejecución con pistas de dominio y un 34,88% sin ellas, una brecha de 20 puntos que define directamente lo que una interfaz BQL de lenguaje natural para Beancount necesitaría resolver.

AILLMSecurityAutomationBeancountComplianceTrust

Uso de herramientas verificablemente seguro para agentes de LLM: STPA se encuentra con MCP

Investigadores de CMU y NC State proponen el uso del Análisis de Procesos Sistémico-Teóricos (STPA) y un Protocolo de Contexto de Modelo mejorado con capacidades para derivar especificaciones de seguridad formales para el uso de herramientas por parte de agentes de LLM, con una verificación basada en Alloy que demuestra la ausencia de flujos inseguros en un caso de estudio de programación de calendarios.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Del Resumen Local al Global Enfocado en Consultas

GraphRAG de Microsoft construye un grafo de entidades particionado por Leiden sobre un corpus de texto y precalcula resúmenes de comunidad para responder preguntas de comprensión global que el RAG vectorial estándar no puede manejar — pero una auditoría de sesgo de 2025 muestra que sus tasas de éxito del 72–83% colapsan tras corregir los artefactos de posición y longitud en la evaluación de LLM como juez.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: Los LLM obtienen una puntuación inferior al 14% en tareas reales de auditoría SEC XBRL

FinAuditing evalúa 13 LLM en modo zero-shot sobre 1,102 instancias reales de presentaciones SEC XBRL; las puntuaciones máximas son del 13.86% en verificación matemática financiera y del 12.42% en recuperación de conceptos, resultados que limitan directamente qué herramientas de contabilidad con IA pueden automatizarse de forma fiable sin herramientas externas.

τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real

Latest articles

Chain-of-Table: Evolución de tablas en la cadena de razonamiento de LLM

TableLlama: ¿Puede un modelo abierto de 7B igualar a GPT-4 en la comprensión de tablas?

TAPAS: Table QA débilmente supervisado sin SQL y qué significa para Beancount

MAC-SQL: Text-to-SQL colaborativo multi-agente

DIN-SQL: Aprendizaje en Contexto Descompuesto para Text-to-SQL

Benchmark BIRD: La brecha de bases de datos reales en LLM Text-to-SQL

Uso de herramientas verificablemente seguro para agentes de LLM: STPA se encuentra con MCP

GraphRAG: Del Resumen Local al Global Enfocado en Consultas

FinAuditing: Los LLM obtienen una puntuación inferior al 14% en tareas reales de auditoría SEC XBRL

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal