BIRD Benchmark: Priepasť medzi reálnymi databázami a LLM pri prevode textu na SQL
Benchmark BIRD (NeurIPS 2023 Spotlight) je príspevok, ktorý si plánujem prečítať vždy, keď niekto tvrdí, že GPT-4 dokáže „dopytovať databázu v bežnej angličtine“. Kladie trefnú otázku: môžu LLM skutočne slúžiť ako databázové rozhranie na reálnych databázach, nielen na akademických modelových schémach? Odpoveď je vytriezvením spôsobom, ktorý takmer priamo mapuje to, čomu by čelila dopytovacia vrstva v prirodzenom jazyku pre účtovné knihy Beancount.
Štúdia
„Môže LLM už teraz slúžiť ako databázové rozhranie? Veľký benchmark pre rozsiahle databázovo podložené prevody textu na SQL“ (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs) od Jinyanga Li a početného tímu z DAMO Academy, HKU, UIUC a ďalších predstavuje BIRD: 12 751 párov otázka-SQL nad 95 reálnymi databázami s celkovou veľkosťou 33,4 GB v 37 odborných doménach. Táto mierka je kľúčová. Spider a WikiSQL, dva benchmarky, ktoré predtým dominovali výskumu prevodu textu na SQL, používajú malé čisté databázy s maximálne niekoľkými stovkami riadkov. BIRD využíva databázy prevzaté z reálnych inštitúcií – finančné záznamy, toxikologické správy, vládne dátové sady – kde sú hodnoty „špinavé“, sémantika stĺpcov vyžaduje doménové znalosti a na efektivite dopytov skutočne záleží. Príspevok tiež zavádza dve metriky: Presnosť vykonávania (Execution Accuracy - EX), ktorá kontroluje, či výsledok SQL zodpovedá správnej odpovedi, a Skóre platnej efektívnosti (Valid Efficiency Score - VES), ktoré penalizuje správne, ale pomalé dopyty.
Kľúčové myšlienky
- GPT-4 dosahuje v testovacej sade len 54,89 % presnosť vykonávania, ak sú mu poskytnuté vybrané externé znalosti (evidence). Bez týchto dôkazov klesá na 34,88 % – ide o 20-percentný rozdiel, ktorý odhaľuje, nakoľko sa model spolieha na poskytnuté nápovedy namiesto vlastných všeobecných znalostí.
- Ľudský výkon je na úrovni 92,96 % vo vývojovej sade, čo zanecháva 38-bodovú priepasť aj po tom, čo GPT-4 dostane doménový kontext odpovedí.
- Externé znalosti sú poskytované ako „veta s dôkazom“ pre každú otázku (napr. „account.type = 'OWNER' znamená, že majiteľ účtu je primárnym vlastníkom“). Modely, ktoré nedokážu tieto súvislosti samy vyhľadať alebo odvodiť, sú v podstate od začiatku hendikepované.
- Finančná doména, ktorá je pre Beancount najrelevantnejšia, nesie najvyššiu mieru šumu v anotáciách: následný audit zistil, že zhruba 49 % dátových bodov vo finančnej doméne obsahuje nejakú chybu – preklepy, nejednoznačné otázky alebo nesprávne vzorové SQL dopyty.
- Rebríček sa od publikovania značne posunul. K roku 2026 dosahuje popredný systém (AskData + GPT-4o) v testovacej sade 81,95 %, pričom ľudský výkon zostáva na úrovni ~92,96 %. Priepasť sa však uzavrela hlavne prostredníctvom prepracovaných viacstupňových procesov (pipelines), nie surovou schopnosťou modelu.
Čo obstojí — a čo nie
Hlavný prínos pretrváva: benchmarky v štýle Spider skutočne podceňovali náročnosť prevodu textu na SQL používaním vyčistených schém. Trvanie BIRD na reálnych hodnotách v databáze a externých znalostiach odhaľuje chybové režimy, ktoré sa pri čistých dátach nikdy neobjavia. Zistenie o 20-bodovom skoku po pridaní znalostí je reprodukovateľné a dôležité.
Benchmark má však konštrukčnú chybu, ktorú priznáva aj jeho vlastná nadväzujúca práca. Externé znalosti sú písané ručne pre každý dopyt anotátormi s doménovou expertízou. To nie je realistický scenár nasadenia. Skutočný agent pre prevod textu na SQL nedostane vopred pripravenú nápovedu pre každú otázku; musí si relevantný doménový kontext vyhľadať alebo odvodiť sám. Štúdia SEED (2025) ukazuje, že automaticky generované dôkazy sa môžu v niektorých nastaveniach vyrovnať alebo prevýšiť tie ručne písané, čo oslabuje implicitný predpoklad BIRD, že úzkym hrdlom je práve náročnosť získania znalostí.
Audit šumu je ešte ničivejší. Dvadsaťdva vzorových SQL dopytov v datasete je úplne chybných. Keď sa tieto opravia, poradie modelov sa zmení: zero-shot GPT-3.5 prekonáva DIN-SQL a MAC-SQL, ktoré boli navrhnuté tak, aby porazili GPT-3.5 na neopravenom benchmarku. To je varovný signál. Benchmark, ktorého poradie sa po vyčistení obráti, nás učí o artefaktoch anotácie rovnako veľa ako o schopnostiach modelov. Najmä 49 % miera šumu vo finančnej doméne robí závery špecifické pre túto doménu nespoľahlivými.
Existuje aj jemnejší problém s VES. Odmeňovanie efektivity dopytov je rozumný cieľ v reálnom svete, ale aby sa benchmark mohol trénovať a vyhodnocovať podľa efektivity, potrebujete základnú pravdu (ground truth) o tom, čo znamená „efektívny“ pre konkrétny databázový stroj a distribúciu dát. VES tu funguje, pretože BIRD kontroluje prostredie vykonávania. Táto podmienka by neplatila pre agenta Beancount spúšťajúceho bean-query nad osobnou účtovnou knihou používateľa na rôznorodom hardvéri.
Prečo je to dôležité pre finančnú AI
Dopytovací jazyk Beancount, BQL (prístupný cez CLI bean-query a knižnicu beanquery), je syntakticky blízky SQL: podporuje SELECT, WHERE, GROUP BY, agregačné funkcie a spájanie (joins) naprieč vstavanými tabuľkami položiek (postings) a zostatkov (balances). Rozhranie v prirodzenom jazyku, ktoré prekladá otázky používateľov do BQL, je najprirodzenejšou cestou pre netechnických používateľov a zistenia BIRD priamo definujú túto výzvu.
Problém externých znalostí v BIRD sa čisto premieta do prostredia Beancount. Používateľ sa môže opýtať „koľko som minul na lekárske výdavky minulý rok?“ a agent musí vedieť, že lekárske náklady daného používateľa sa nachádzajú pod Expenses:Health:* alebo Expenses:Medical, v závislosti od toho, ako si zorganizoval svoje účty. Toto mapovanie je osobné, nie je v žiadnom trénovacom korpuse. Zistenie BIRD, že GPT-4 stráca 20 bodov bez dôkazov, naznačuje, že každý agent generujúci BQL potrebuje krok vyhľadávania, ktorý sa naučí vlastnú taxonómiu účtov používateľa – v podstate znalostnú bázu pre každého používateľa.
Priamo sa premieta aj problém „špinavých“ dát. Importované bankové transakcie majú často nekonzistentné názvy obchodníkov, artefakty z OCR a zmiešané kódovania. BIRD kvantifikuje, čo to stojí z hľadiska správnosti SQL, a toto číslo je dostatočne veľké na to, aby sa predspracovanie stalo prvoradou záležitosťou, nie len dodatočnou myšlienkou.
Čo BIRD nepokrýva: konštrukcie špecifické pre účtovné knihy, ako sú kontroly zostatkov (balance assertions), direktívy vyrovnania (pad directives) alebo položky vo viacerých menách, nemajú v štandardnom SQL ekvivalent. Každý BQL agent tak bude čeliť vrstve zložitosti, ktorú BIRD nemeria. Tento benchmark je užitočnou dolnou hranicou, nie stropom.
Čo si prečítať ďalej
- Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows (arXiv:2502.04306, ICLR 2025 Oral) – rozširuje BIRD na podnikové prostredia s cloudovými databázami a viacúrovňovými pracovnými postupmi; prirodzený ďalší krok pre pochopenie medzier v reálnom nasadení.
- SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation (arXiv:2506.07423) – priamo rieši predpoklad BIRD o ručne písaných dôkazoch pomocou automatizovaného procesu.
- DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction (arXiv:2304.11015, NeurIPS 2023) – jeden z najlepších základov (baselines) pre BIRD; ukazuje, ako rozklad zložitého SQL dopytu na subproblémy zlepšuje presnosť, čo je technika priamo aplikovateľná na viacstupňové BQL dopyty nad účtovnými knihami Beancount.
