Benchmark BIRD: La brecha de bases de datos reales en LLM Text-to-SQL
El benchmark BIRD (NeurIPS 2023 Spotlight) es el artículo que siempre digo que voy a leer cada vez que alguien argumenta que GPT-4 puede "consultar una base de datos en inglés sencillo". Plantea una pregunta directa: ¿pueden realmente los LLM servir como interfaz de base de datos en bases de datos reales, y no solo en esquemas académicos de juguete? La respuesta es aleccionadora en formas que se corresponden casi directamente con los retos que enfrentaría una capa de consulta en lenguaje natural para los libros contables de Beancount.
El artículo
"¿Puede el LLM servir ya como interfaz de base de datos? Un gran benchmark para Text-to-SQL basado en bases de datos a gran escala" (título traducido de "Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs") de Jinyang Li y un amplio equipo de DAMO Academy, HKU, UIUC y otros, presenta BIRD: 12.751 pares de pregunta-SQL sobre 95 bases de datos reales que suman 33,4 GB en 37 dominios profesionales. Esa escala es el punto clave. Spider y WikiSQL, los dos benchmarks que dominaban la investigación de text-to-SQL antes de este, utilizan bases de datos pequeñas y limpias con un máximo de unos pocos cientos de filas. BIRD utiliza bases de datos extraídas de instituciones reales —registros financieros, informes toxicológicos, conjuntos de datos gubernamentales— donde los valores están "sucios", la semántica de las columnas requiere conocimiento del dominio y la eficiencia de las consultas realmente importa. El artículo también introduce dos métricas: Precisión de Ejecución (EX), que comprueba si el resultado de SQL coincide con la respuesta de referencia (gold answer), y la Puntuación de Eficiencia Válida (VES), que penaliza las consultas correctas pero lentas.
Ideas clave
- GPT-4 logra solo un 54,89% de precisión de ejecución en el conjunto de prueba cuando se le proporciona evidencia de conocimiento externo curada. Sin esa evidencia, cae al 34,88%, una brecha de 20 puntos porcentuales que revela cuánto se apoya el modelo en las pistas proporcionadas en lugar de en su propio conocimiento del mundo.
- El rendimiento humano se sitúa en el 92,96% en el conjunto de desarrollo, dejando una brecha de 38 puntos incluso después de que a GPT-4 se le proporcione el contexto de dominio de las respuestas.
- El conocimiento externo se proporciona como una "frase de evidencia" por pregunta (por ejemplo, "cuenta.tipo = 'DUEÑO' significa que el titular de la cuenta es el propietario principal"). Los modelos que no pueden recuperar o inferir este contexto por sí mismos están esencialmente limitados desde el principio.
- El dominio financiero, que es el más relevante para Beancount, presenta la tasa de ruido de anotación más alta: una auditoría de seguimiento encontró que aproximadamente el 49% de los puntos de datos del dominio financiero contienen algún error —errores ortográficos, preguntas ambiguas o consultas SQL de referencia incorrectas—.
- La tabla de clasificación (leaderboard) se ha movido considerablemente desde la publicación. A partir de 2026, el sistema líder (AskData + GPT-4o) alcanza el 81,95% en el conjunto de prueba, con el rendimiento humano aún en ~92,96%, pero la brecha se cerró principalmente a través de complejos pipelines multietapa, no por la capacidad bruta del modelo.
Qué se mantiene y qué no
La contribución principal se mantiene: los benchmarks al estilo Spider subestimaban genuinamente la dificultad de text-to-SQL al usar esquemas saneados. La insistencia de BIRD en valores de bases de datos reales y conocimiento externo revela modos de fallo que nunca aparecen en datos limpios, y la variación de 20 puntos al añadir evidencia de conocimiento es un hallazgo reproducible e importante.
Sin embargo, el benchmark tiene un defecto de diseño que su propio trabajo de seguimiento reconoce. La evidencia de conocimiento externo es escrita a mano, por consulta, por anotadores con experiencia en el dominio. Ese no es un escenario de despliegue realista. Un agente NL-to-SQL real no recibe una pista preescrita para cada pregunta; debe recuperar o inferir el contexto de dominio relevante por sí mismo. El artículo SEED (2025) muestra que la evidencia generada automáticamente puede igualar o superar la evidencia escrita a mano en algunos entornos, lo que debilita la suposición implícita de BIRD de que el cuello de botella del conocimiento es la parte difícil.
La auditoría de ruido es más perjudicial. Veintidós consultas SQL de referencia en el conjunto de datos son directamente erróneas. Cuando se corrigen, las clasificaciones de los modelos cambian: GPT-3.5 zero-shot supera a DIN-SQL y MAC-SQL, que están diseñados para vencer a GPT-3.5 en el benchmark no corregido. Esa es una señal de alerta. Un benchmark cuyas clasificaciones se invierten al sanearlo nos está enseñando sobre artefactos de anotación tanto como sobre la capacidad del modelo. La tasa de ruido del 49% en el dominio financiero, en particular, hace que las conclusiones específicas de ese dominio no sean fiables.
También hay un problema más sutil con la VES. Premiar la eficiencia de las consultas es un objetivo sensato en el mundo real, pero para que un benchmark entrene y evalúe la eficiencia, se necesita una verdad fundamental sobre lo que significa "eficiente" para un motor de base de datos y una distribución de datos específicos. La VES funciona aquí porque BIRD controla el entorno de ejecución. Esa condición no se cumpliría para un agente de Beancount que ejecute beanquery contra el libro contable personal de un usuario en hardware heterogéneo.
Por qué esto importa para la IA financiera
El lenguaje de consulta de Beancount, BQL (expuesto a través de la CLI bean-query y la biblioteca beanquery), es sintácticamente cercano a SQL: admite SELECT, WHERE, GROUP BY, funciones de agregación y uniones a través de las tablas integradas de asientos (postings) y saldos. Una interfaz en lenguaje natural que traduzca las preguntas de los usuarios a BQL es el punto de entrada más natural para los usuarios no técnicos, y los hallazgos de BIRD enmarcan directamente el desafío.
El problema del conocimiento externo en BIRD se traslada claramente a Beancount. Un usuario podría preguntar "¿cuánto gasté en gastos médicos el año pasado?" y el agente necesita saber que los costos médicos del usuario viven bajo Gastos:Salud:* o Gastos:Medicos, dependiendo de cómo haya organizado sus cuentas. Ese mapeo es personal, no está en ningún corpus de entrenamiento. El hallazgo de BIRD de que GPT-4 pierde 20 puntos sin evidencia sugiere que cualquier agente de generación de BQL necesita un paso de recuperación que aprenda la propia taxonomía de cuentas del usuario, esencialmente una base de conocimientos por usuario.
El problema de los datos sucios también se traslada directamente. Las transacciones bancarias importadas a menudo tienen nombres de comercios inconsistentes, artefactos de OCR y codificaciones mixtas. BIRD cuantifica lo que esto cuesta en términos de corrección de SQL, y la cifra es lo suficientemente grande como para hacer del preprocesamiento una preocupación de primer nivel en lugar de una reflexión posterior.
Lo que BIRD no cubre: las construcciones específicas de libros contables como las aseveraciones de saldo (balance assertions), las directivas pad o los asientos multimoneda no tienen equivalente en el SQL estándar, por lo que cualquier agente de BQL enfrentará una capa de complejidad que BIRD no mide. El benchmark es un límite inferior útil, no un techo.
Qué leer a continuación
- Spider 2.0: Evaluando modelos de lenguaje en flujos de trabajo Text-to-SQL empresariales del mundo real (arXiv:2502.04306, ICLR 2025 Oral) — extiende BIRD a entornos empresariales con bases de datos en la nube y flujos de trabajo multiarchivo; el siguiente paso natural para comprender las brechas de despliegue en el mundo real.
- SEED: Mejorando el rendimiento y la usabilidad práctica de Text-to-SQL mediante la generación automática de evidencia (arXiv:2506.07423) — aborda directamente la suposición de evidencia escrita a mano de BIRD con un pipeline automatizado.
- DIN-SQL: Aprendizaje en contexto descompuesto de Text-to-SQL con autocorrección (arXiv:2304.11015, NeurIPS 2023) — una de las mejores líneas base de BIRD; muestra cómo descomponer una consulta SQL compleja en subproblemas mejora la precisión, una técnica directamente aplicable a las consultas BQL multietapa sobre libros contables de Beancount.
