MAC-SQL (COLING 2025) utiliza tres agentes especializados — Selector para la reducción de esquemas, Decomposer para la descomposición de preguntas y Refiner para la corrección de SQL guiada por la ejecución — para alcanzar una precisión de ejecución del 59,59% en el benchmark BIRD; la ablación muestra que el Refiner es el que más contribuye (+4,63 puntos), con implicaciones directas para la generación de consultas en libros mayores de Beancount.
DIN-SQL (NeurIPS 2023) descompone text-to-SQL en etapas de vinculación de esquemas, clasificación de complejidad y generación de SQL, elevando la precisión de ejecución de GPT-4 en Spider del 67.4% al 85.3% sin ajuste fino — y la misma estrategia de descomposición se aplica directamente a las interfaces de lenguaje natural para el lenguaje de consulta BQL de Beancount.
El benchmark BIRD (NeurIPS 2023) evalúa los LLM en 95 bases de datos reales: GPT-4 alcanza solo un 54,89% de precisión de ejecución con pistas de dominio y un 34,88% sin ellas, una brecha de 20 puntos que define directamente lo que una interfaz BQL de lenguaje natural para Beancount necesitaría resolver.