Aller au contenu principal

Benchmark BIRD : l'écart des bases de données réelles dans le Text-to-SQL par LLM

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

Le benchmark BIRD (NeurIPS 2023 Spotlight) est l'article que je me propose de lire chaque fois que quelqu'un soutient que GPT-4 peut « interroger une base de données en anglais simple ». Il pose une question pertinente : les LLM peuvent-ils réellement servir d'interface de base de données sur des bases de données réelles, et non sur des schémas académiques simplistes ? La réponse est sobre et se transpose presque directement aux défis auxquels serait confrontée une couche de requête en langage naturel pour les journaux Beancount.

L'article

2026-06-06-bird-benchmark-text-to-sql-real-database-gap

« Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs » par Jinyang Li et une équipe importante de DAMO Academy, HKU, UIUC et d'autres, introduit BIRD : 12 751 paires question-SQL sur 95 bases de données réelles totalisant 33,4 Go à travers 37 domaines professionnels. Cette échelle est l'argument central. Spider et WikiSQL, les deux benchmarks qui dominaient la recherche text-to-SQL avant celui-ci, utilisaient de petites bases de données propres avec au plus quelques centaines de lignes. BIRD utilise des bases de données issues d'institutions réelles — registres financiers, rapports toxicologiques, ensembles de données gouvernementaux — où les valeurs sont sales, la sémantique des colonnes nécessite des connaissances du domaine et l'efficacité des requêtes compte réellement. L'article introduit également deux métriques : la Précision d'Exécution (EX), qui vérifie si le résultat SQL correspond à la réponse de référence, et le Score d'Efficacité Valide (VES), qui pénalise les requêtes correctes mais lentes.

Idées clés

  • GPT-4 n'atteint que 54,89 % de précision d'exécution sur l'ensemble de test lorsqu'il dispose de preuves de connaissances externes sélectionnées. Sans ces preuves, elle tombe à 34,88 % — un écart de 20 points de pourcentage qui révèle à quel point le modèle s'appuie sur les indices fournis plutôt que sur ses propres connaissances du monde.
  • La performance humaine se situe à 92,96 % sur l'ensemble de développement, laissant un écart de 38 points même après que GPT-4 a reçu le contexte du domaine des réponses.
  • Les connaissances externes sont fournies sous forme d'une « phrase de preuve » par question (par exemple, « account.type = 'OWNER' signifie que le titulaire du compte est le propriétaire principal »). Les modèles incapables de récupérer ou d'inférer ce contexte par eux-mêmes sont essentiellement handicapés dès le départ.
  • Le domaine financier, qui est le plus pertinent pour Beancount, présente le taux de bruit d'annotation le plus élevé : un audit de suivi a révélé qu'environ 49 % des points de données du domaine financier contiennent une erreur — fautes d'orthographe, questions ambiguës ou requêtes SQL de référence incorrectes.
  • Le classement a considérablement évolué depuis la publication. En 2026, le système de tête (AskData + GPT-4o) atteint 81,95 % sur l'ensemble de test, avec une performance humaine toujours à environ 92,96 %, mais l'écart s'est réduit principalement grâce à des pipelines multi-étapes élaborés, et non par la simple capacité brute du modèle.

Ce qui tient la route — et ce qui ne la tient pas

La contribution fondamentale demeure : les benchmarks de type Spider sous-estimaient véritablement la difficulté du text-to-SQL en utilisant des schémas aseptisés. L'insistance de BIRD sur les valeurs réelles des bases de données et les connaissances externes révèle des modes d'échec qui n'apparaissent jamais sur des données propres, et l'écart de 20 points résultant de l'ajout de preuves de connaissances est une conclusion reproductible et importante.

Cependant, le benchmark présente un défaut de conception que ses propres travaux de suivi reconnaissent. Les preuves de connaissances externes sont écrites à la main, par question, par des annotateurs ayant une expertise du domaine. Ce n'est pas un scénario de déploiement réaliste. Un agent NL-to-SQL réel ne reçoit pas d'indice pré-écrit pour chaque question ; il doit récupérer ou inférer le contexte du domaine pertinent par lui-même. L'article SEED (2025) montre que des preuves générées automatiquement peuvent égaler ou dépasser les preuves écrites à la main dans certains contextes, ce qui affaiblit l'hypothèse implicite de BIRD selon laquelle le goulot d'étranglement des connaissances est la partie difficile.

L'audit du bruit est plus dommageable. Vingt-deux requêtes SQL de référence dans l'ensemble de données sont carrément fausses. Lorsque celles-ci sont corrigées, les classements des modèles changent : GPT-3.5 zero-shot surpasse DIN-SQL et MAC-SQL, qui sont pourtant conçus pour battre GPT-3.5 sur le benchmark non corrigé. C'est un signal d'alarme. Un benchmark dont les classements s'inversent après nettoyage nous renseigne autant sur les artefacts d'annotation que sur la capacité du modèle. Le taux de bruit de 49 % du domaine financier, en particulier, rend les conclusions spécifiques à ce domaine peu fiables.

Il y a aussi une question plus subtile avec le VES. Récompenser l'efficacité des requêtes est un objectif réaliste et sensé, mais pour qu'un benchmark puisse entraîner et évaluer sur l'efficacité, il faut une vérité terrain sur ce que signifie « efficace » pour un moteur de base de données et une distribution de données spécifiques. Le VES fonctionne ici parce que BIRD contrôle l'environnement d'exécution. Cette condition ne serait pas remplie pour un agent Beancount exécutant beanquery sur le journal personnel d'un utilisateur avec un matériel hétérogène.

Pourquoi cela compte pour l'IA financière

Le langage de requête de Beancount, BQL (exposé via la CLI bean-query et la bibliothèque beanquery), est syntaxiquement proche du SQL : il prend en charge SELECT, WHERE, GROUP BY, des fonctions d'agrégation et des jointures sur les tables intégrées d'écritures (postings) et de soldes (balances). Une interface en langage naturel qui traduit les questions des utilisateurs en BQL est la rampe d'accès la plus naturelle pour les utilisateurs non techniques, et les conclusions de BIRD cadrent directement le défi.

Le problème des connaissances externes dans BIRD se transpose parfaitement à Beancount. Un utilisateur pourrait demander « combien ai-je dépensé en frais médicaux l'année dernière ? » et l'agent doit savoir que les coûts médicaux de l'utilisateur se trouvent sous Expenses:Health:* ou Expenses:Medical, selon l'organisation de ses comptes. Ce mappage est personnel, il ne figure dans aucun corpus d'entraînement. La conclusion de BIRD selon laquelle GPT-4 perd 20 points sans preuves suggère que tout agent de génération BQL nécessite une étape de récupération qui apprend la propre taxonomie de comptes de l'utilisateur — essentiellement une base de connaissances par utilisateur.

Le problème des données sales se transpose également directement. Les transactions bancaires importées ont souvent des noms de marchands incohérents, des artefacts d'OCR et des encodages mixtes. BIRD quantifie ce que cela coûte en termes de justesse SQL, et le chiffre est suffisamment élevé pour faire du prétraitement une préoccupation de premier ordre plutôt qu'une réflexion après coup.

Ce que BIRD ne couvre pas : les constructions spécifiques au grand livre comme les assertions de solde, les directives de remplissage ou les écritures multi-devises n'ont pas d'équivalent en SQL standard, donc tout agent BQL sera confronté à une couche de complexité que BIRD ne mesure pas. Le benchmark est une borne inférieure utile, pas un plafond.

Que lire ensuite

  • Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows (arXiv:2502.04306, ICLR 2025 Oral) — étend BIRD aux environnements d'entreprise avec des bases de données cloud et des workflows multi-fichiers ; l'étape suivante naturelle pour comprendre les écarts de déploiement en conditions réelles.
  • SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation (arXiv:2506.07423) — traite directement l'hypothèse des preuves écrites à la main de BIRD avec un pipeline automatisé.
  • DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction (arXiv:2304.11015, NeurIPS 2023) — l'une des meilleures références de BIRD ; montre comment la décomposition d'une requête SQL complexe en sous-problèmes améliore la précision, une technique directement applicable aux requêtes BQL multi-étapes sur les journaux Beancount.