Salta al contingut principal

Banc de proves BIRD: La bretxa de les bases de dades reals en el Text-to-SQL dels LLM

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

El banc de proves BIRD (NeurIPS 2023 Spotlight) és l'article que sempre tinc pendent de llegir quan algú argumenta que el GPT-4 pot "consultar una base de dades en anglès senzill". Planteja una pregunta directa: poden els LLM actuar realment com una interfície de base de dades en bases de dades reals, i no en esquemes acadèmics de joguina? La resposta és alliçonadora en aspectes que es traslladen gairebé directament al que hauria d'afrontar una capa de consulta en llenguatge natural per als llibres majors de Beancount.

L'article

2026-06-06-bird-benchmark-text-to-sql-real-database-gap

"Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs" de Jinyang Li i un ampli equip de DAMO Academy, HKU, UIUC i altres, presenta BIRD: 12.751 parells de pregunta-SQL sobre 95 bases de dades reals que sumen 33,4 GB en 37 dominis professionals. Aquesta escala és el punt clau. Spider i WikiSQL, els dos bancs de proves que dominaven la recerca de text-a-SQL abans d'aquest, utilitzen bases de dades petites i netes amb, com a màxim, unes poques centenars de files. BIRD utilitza bases de dades extretes d'institucions reals —registres financers, informes toxicològics, conjunts de dades governamentals— on els valors són bruts, la semàntica de les columnes requereix coneixement del domini i l'eficiència de la consulta realment importa. L'article també introdueix dues mètriques: la Precisió d'Execució (EX), que verifica si el resultat de l'SQL coincideix amb la resposta de referència, i la Puntuació d'Eficiència Vàlida (VES), que penalitza les consultes correctes però lentes.

Idees clau

  • El GPT-4 assoleix només un 54,89% de precisió d'execució en el conjunt de proves quan se li proporciona evidència de coneixement extern seleccionada. Sense aquesta evidència, cau al 34,88%, una bretxa de 20 punts percentuals que revela quant depèn el model de les pistes proporcionades en lloc del seu propi coneixement del món.
  • El rendiment humà se situa en el 92,96% en el conjunt de desenvolupament, deixant una bretxa de 38 punts fins i tot després que el GPT-4 rebi el context de domini de les respostes.
  • El coneixement extern es proporciona com una "frase d'evidència" per pregunta (per exemple, "account.type = 'OWNER' significa que el titular del compte és el propietari principal"). Els models que no poden recuperar o inferir aquest context per si mateixos estan, en essència, limitats des del principi.
  • El domini financer, que és el més rellevant per a Beancount, presenta la taxa de soroll d'anotació més alta: una auditoria posterior va trobar que aproximadament el 49% dels punts de dades del domini financer contenen algun error —faltes d'ortografia, preguntes ambigües o consultes SQL de referència incorrectes.
  • La taula de classificació ha avançat considerablement des de la publicació. A data de 2026, el sistema líder (AskData + GPT-4o) assoleix el 81,95% en el conjunt de proves, amb el rendiment humà encara al voltant del 92,96%, però la bretxa s'ha tancat principalment mitjançant conduccions (pipelines) complexes de diversos passos, no per la capacitat bruta del model.

Què es manté — i què no

La contribució central es manté: els bancs de proves a l'estil de Spider realment subestimaven la dificultat del text-a-SQL en utilitzar esquemes sanejats. La insistència de BIRD en valors de bases de dades reals i coneixement extern revela modes de fallada que mai apareixen en dades netes, i la variació de 20 punts en afegir evidència de coneixement és una troballa reproduïble i important.

Però el banc de proves té un defecte de disseny que el seu propi treball posterior reconeix. L'evidència de coneixement extern està escrita a mà, per consulta, per anotadors amb experiència en el domini. Aquest no és un escenari de desplegament realista. Un agent real de NL-a-SQL no rep una pista escrita prèviament per a cada pregunta; ha de recuperar o inferir el context del domini pertinent per ell mateix. L'article SEED (2025) mostra que l'evidència generada automàticament pot igualar o superar l'evidència escrita a mà en alguns entorns, la qual cosa debilita la hipòtesi implícita de BIRD que el coll d'ampolla del coneixement és la part difícil.

L'auditoria de soroll és més demolidora. Vint-i-dues consultes SQL de referència del conjunt de dades són directament errònies. Quan es corregeixen, les classificacions dels models canvien: el GPT-3.5 zero-shot supera el DIN-SQL i el MAC-SQL, que estan dissenyats per vèncer el GPT-3.5 en el banc de proves sense corregir. Això és un senyal d'alerta. Un banc de proves les classificacions del qual s'inverteixen en fer una neteja ens està ensenyant tant sobre els artefactes d'anotació com sobre la capacitat del model. La taxa de soroll del 49% del domini financer, en particular, fa que les conclusions específiques del domini no siguin fiables.

També hi ha un problema més subtil amb la VES. Recompensar l'eficiència de la consulta és un objectiu assenyat en el món real, però per a un banc de proves que entrena i avalua l'eficiència, cal una veritat fonamental sobre què significa "eficient" per a un motor de base de dades i una distribució de dades específics. La VES funciona aquí perquè BIRD controla l'entorn d'execució. Aquesta condició no es compliria per a un agent de Beancount que executés beanquery contra el llibre major personal d'un usuari en un maquinari heterogeni.

Per què això és important per a la IA financera

El llenguatge de consulta de Beancount, BQL (exposat a través de la CLI bean-query i la biblioteca beanquery), és sintàcticament proper a l'SQL: admet SELECT, WHERE, GROUP BY, funcions d'agregació i unions (joins) entre les taules internes d'assentaments (postings) i saldos. Una interfície en llenguatge natural que tradueixi les preguntes dels usuaris a BQL és el punt d'entrada més natural per als usuaris no tècnics, i les troballes de BIRD emmarquen directament el repte.

El problema del coneixement extern a BIRD es trasllada clarament a Beancount. Un usuari podria preguntar "quant vaig gastar en despeses mèdiques l'any passat?" i l'agent ha de saber que els costos mèdics de l'usuari es troben sota Expenses:Health:* o Expenses:Medical, depenent de com hagi organitzat els seus comptes. Aquesta assignació és personal, no es troba en cap corpus d'entrenament. La troballa de BIRD que el GPT-4 perd 20 punts sense evidència suggereix que qualsevol agent de generació de BQL necessita un pas de recuperació que aprengui la pròpia taxonomia de comptes de l'usuari —essencialment, una base de coneixement per usuari.

El problema de les dades brutes també es trasllada directament. Les transaccions bancàries importades sovint tenen noms de comerciants inconsistents, artefactes d'OCR i codificacions barrejades. BIRD quantifica el cost d'això en termes de correcció de l'SQL, i la xifra és prou alta com per fer del preprocessament una preocupació de primer nivell en lloc d'una qüestió secundària.

El que BIRD no cobreix: les construccions específiques del llibre major, com les asserccions de saldo, les directives de farcit (pad) o els assentaments multimoneda, no tenen equivalent en l'SQL estàndard, de manera que qualsevol agent BQL s'enfrontarà a una capa de complexitat que BIRD no mesura. El banc de proves és un límit inferior útil, no un sostre.

Què llegir a continuació

  • Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows (arXiv:2502.04306, ICLR 2025 Oral) — amplia BIRD a entorns empresarials amb bases de dades al núvol i fluxos de treball multifitxer; el següent pas natural per comprendre les bretxes de desplegament en el món real.
  • SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation (arXiv:2506.07423) — aborda directament la hipòtesi de l'evidència escrita a mà de BIRD amb una conducció automatitzada.
  • DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction (arXiv:2304.11015, NeurIPS 2023) — una de les principals referències de BIRD; mostra com la descomposició d'una consulta SQL complexa en subproblemes millora la precisió, una tècnica directament aplicable a les consultes BQL de diversos passos sobre els llibres majors de Beancount.