Chain-of-Table (ICLR 2024) mejora el razonamiento tabular de los LLM al evolucionar la propia tabla como estado intermedio, logrando un 67,31 % en WikiTQ frente al 61,48 % de las líneas base anteriores, con una ventaja de +10,25 puntos en tablas que superan los 4.000 tokens y aplicabilidad directa a agentes de consulta de libros mayores de Beancount.
TableLlama ajusta Llama 2 (7B) con 2,6 millones de ejemplos de tareas de tablas y supera a GPT-4 en tareas estructurales como la anotación de tipos de columnas (F1 94 vs 32), pero queda 33 puntos por debajo en el razonamiento compositivo de WikiTQ; un referente calibrado de lo que los modelos abiertos de 7B pueden y no pueden hacer hoy en la IA financiera.
TAPAS (Google Research, ACL 2020) responde preguntas sobre tablas seleccionando celdas y aplicando agregaciones escalares, sin generar SQL. Este post analiza la arquitectura, su ganancia de precisión de 12 puntos en SQA y por qué el paradigma de selección de celdas se adapta a consultas pequeñas de libros mayores de Beancount pero falla a gran escala.
MAC-SQL (COLING 2025) utiliza tres agentes especializados — Selector para la reducción de esquemas, Decomposer para la descomposición de preguntas y Refiner para la corrección de SQL guiada por la ejecución — para alcanzar una precisión de ejecución del 59,59% en el benchmark BIRD; la ablación muestra que el Refiner es el que más contribuye (+4,63 puntos), con implicaciones directas para la generación de consultas en libros mayores de Beancount.
DIN-SQL (NeurIPS 2023) descompone text-to-SQL en etapas de vinculación de esquemas, clasificación de complejidad y generación de SQL, elevando la precisión de ejecución de GPT-4 en Spider del 67.4% al 85.3% sin ajuste fino — y la misma estrategia de descomposición se aplica directamente a las interfaces de lenguaje natural para el lenguaje de consulta BQL de Beancount.
El benchmark BIRD (NeurIPS 2023) evalúa los LLM en 95 bases de datos reales: GPT-4 alcanza solo un 54,89% de precisión de ejecución con pistas de dominio y un 34,88% sin ellas, una brecha de 20 puntos que define directamente lo que una interfaz BQL de lenguaje natural para Beancount necesitaría resolver.
Investigadores de CMU y NC State proponen el uso del Análisis de Procesos Sistémico-Teóricos (STPA) y un Protocolo de Contexto de Modelo mejorado con capacidades para derivar especificaciones de seguridad formales para el uso de herramientas por parte de agentes de LLM, con una verificación basada en Alloy que demuestra la ausencia de flujos inseguros en un caso de estudio de programación de calendarios.
GraphRAG de Microsoft construye un grafo de entidades particionado por Leiden sobre un corpus de texto y precalcula resúmenes de comunidad para responder preguntas de comprensión global que el RAG vectorial estándar no puede manejar — pero una auditoría de sesgo de 2025 muestra que sus tasas de éxito del 72–83% colapsan tras corregir los artefactos de posición y longitud en la evaluación de LLM como juez.
FinAuditing evalúa 13 LLM en modo zero-shot sobre 1,102 instancias reales de presentaciones SEC XBRL; las puntuaciones máximas son del 13.86% en verificación matemática financiera y del 12.42% en recuperación de conceptos, resultados que limitan directamente qué herramientas de contabilidad con IA pueden automatizarse de forma fiable sin herramientas externas.