BIRD 벤치마크: LLM Text-to-SQL의 실제 데이터베이스 격차

2026년 6월 6일 · 약 6분

Mike Thrift

Marketing Manager

BIRD 벤치마크(NeurIPS 2023 Spotlight)는 누군가가 GPT-4가 "평범한 영어로 데이터베이스를 쿼리할 수 있다"고 주장할 때마다 제가 읽어보라고 권하고 싶어지는 논문입니다. 이 논문은 날카로운 질문을 던집니다. LLM이 학술적인 가상의 스키마가 아닌 실제 데이터베이스에서 진정으로 데이터베이스 인터페이스 역할을 할 수 있을까요? 그 답은 Beancount 장부를 위한 자연어 쿼리 계층이 직면하게 될 상황과 거의 직접적으로 맞닿아 있다는 점에서 시사하는 바가 큽니다.

논문 내용

2026-06-06-bird-benchmark-text-to-sql-real-database-gap

Jinyang Li와 DAMO Academy, HKU, UIUC 등의 대규모 팀이 발표한 "Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs"는 37개 전문 분야에 걸쳐 총 33.4GB 규모의 95개 실제 데이터베이스에서 추출한 12,751개의 질문–SQL 쌍으로 구성된 BIRD를 소개합니다. 이 규모가 핵심입니다. 기존 text-to-SQL 연구를 주도했던 Spider와 WikiSQL은 최대 몇 백 개의 행만 있는 작고 깨끗한 데이터베이스를 사용했습니다. 반면 BIRD는 실제 기관에서 가져온 금융 기록, 독성 보고서, 정부 데이터셋 등을 사용합니다. 여기서는 데이터 값이 지저분하고, 컬럼의 의미를 파악하는 데 도메인 지식이 필요하며, 쿼리 효율성이 실제로 중요해집니다. 이 논문은 또한 두 가지 지표를 도입합니다. SQL 결과가 정답과 일치하는지 확인하는 실행 정확도(Execution Accuracy, EX)와 정확하지만 느린 쿼리에 패널티를 부여하는 유효 효율성 점수(Valid Efficiency Score, VES)입니다.

주요 아이디어

GPT-4는 정제된 외부 지식 증거(External knowledge evidence)가 제공될 때 테스트 세트에서 54.89%의 실행 정확도만을 달성합니다. 이 증거가 없으면 34.88%로 떨어지는데, 이 20포인트의 격차는 모델이 자체적인 세계 지식보다는 제공된 힌트에 얼마나 의존하고 있는지를 극명하게 보여줍니다.
개발 세트에서 인간의 성능은 92.96%에 달하며, GPT-4에 질문의 도메인 컨텍스트를 제공한 후에도 38포인트의 격차가 존재합니다.
외부 지식은 질문별로 "증거 문장"(예: "account.type = 'OWNER'는 계좌 소유자가 주 소유자임을 의미함") 형식으로 제공됩니다. 이러한 컨텍스트를 스스로 검색하거나 추론할 수 없는 모델은 시작부터 제약을 받는 셈입니다.
Beancount와 가장 밀접한 관련이 있는 금융 도메인은 주석 노이즈 발생률이 가장 높습니다. 후속 감사 결과, 금융 도메인 데이터 포인트의 약 49%에 오타, 모호한 질문 또는 잘못된 정답 SQL 쿼리와 같은 오류가 포함되어 있는 것으로 나타났습니다.
출판 이후 리더보드는 크게 변했습니다. 2026년 현재 선두 시스템(AskData + GPT-4o)은 테스트 세트에서 81.95%에 도달했으며 인간의 성능은 여전히 ~92.96% 수준입니다. 하지만 이 격차는 모델 자체의 순수한 능력보다는 정교한 다단계 파이프라인을 통해 좁혀졌습니다.

유효한 점과 그렇지 않은 점

BIRD의 핵심 기여는 여전히 유효합니다. Spider 스타일의 벤치마크는 정제된 스키마를 사용하여 text-to-SQL의 난이도를 과소평가했습니다. 실제 데이터베이스 값과 외부 지식의 필요성을 강조한 BIRD는 깨끗한 데이터에서는 절대 나타나지 않는 실패 양상을 드러냈으며, 지식 증거 추가에 따른 20포인트의 성능 변화는 재현 가능하고 중요한 발견입니다.

하지만 이 벤치마크에는 자체 후속 연구에서도 인정한 설계 결함이 있습니다. 외부 지식 증거는 도메인 전문가가 질문마다 직접 작성한 것입니다. 이는 실제 배포 시나리오와는 거리가 멉니다. 실제 NL-to-SQL 에이전트는 모든 질문에 대해 미리 작성된 힌트를 받지 못하며, 관련 도메인 컨텍스트를 직접 검색하거나 추론해야 합니다. SEED 논문(2025)에 따르면 자동 생성된 증거가 일부 환경에서 수동 작성된 증거와 대등하거나 그 이상의 성능을 보일 수 있다는 점은 지식 병목 현상이 핵심 난제라는 BIRD의 암묵적 가정을 약화시킵니다.

노이즈 감사 결과는 더 치명적입니다. 데이터셋의 정답 SQL 쿼리 중 22개가 완전히 잘못된 것으로 밝혀졌습니다. 이를 수정하면 모델 순위가 뒤바뀝니다. 제로샷 GPT-3.5가 수정 전 벤치마크에서 GPT-3.5를 이기도록 설계된 DIN-SQL 및 MAC-SQL보다 더 나은 성능을 보였습니다. 이는 심각한 문제입니다. 수정 작업만으로 순위가 뒤바뀌는 벤치마크는 모델의 능력만큼이나 주석 작업의 오류(Artifact)에 대해 가르쳐주는 꼴이 됩니다. 특히 금융 도메인의 49% 노이즈 비율은 도메인별 결론을 신뢰하기 어렵게 만듭니다.

VES와 관련된 미묘한 문제도 있습니다. 쿼리 효율성을 보상하는 것은 현실적으로 합리적인 목표지만, 효율성을 훈련하고 평가하려면 특정 데이터베이스 엔진 및 데이터 분포에 대한 "효율적임"의 기준(Ground truth)이 필요합니다. BIRD에서는 실행 환경을 제어하므로 VES가 작동하지만, 다양한 하드웨어에서 사용자의 개인 장부를 대상으로 beanquery를 실행하는 Beancount 에이전트에게는 이 조건이 적용되지 않습니다.

이것이 금융 AI에 중요한 이유

Beancount의 쿼리 언어인 BQL(bean-query CLI 및 beanquery 라이브러리를 통해 제공됨)은 구문론적으로 SQL과 매우 유사합니다. SELECT, WHERE, GROUP BY, 집계 함수, 그리고 내장된 posting 및 balance 테이블 간의 조인을 지원합니다. 사용자의 질문을 BQL로 변환하는 자연어 인터페이스는 비전문가 사용자를 위한 가장 자연스러운 진입점이며, BIRD의 발견은 이러한 과제를 직접적으로 정의합니다.

BIRD의 외부 지식 문제는 Beancount와 완벽하게 매칭됩니다. 사용자가 "작년에 의료비로 얼마를 썼지?"라고 물으면, 에이전트는 사용자가 계정을 어떻게 정리했느냐에 따라 의료비가 Expenses:Health:* 또는 Expenses:Medical 아래에 있다는 사실을 알아야 합니다. 이러한 매핑은 학습 코퍼스에 없는 개인적인 정보입니다. GPT-4가 증거 없이는 20포인트를 잃는다는 BIRD의 발견은, BQL 생성 에이전트가 사용자의 고유한 계정 체계를 학습하는 검색 단계(사실상 사용자별 지식 베이스)가 반드시 필요함을 시사합니다.

지저분한 데이터 문제도 직결됩니다. 수입된 은행 거래 내역은 종종 일관성 없는 가맹점 이름, OCR 오류, 혼합된 인코딩을 포함합니다. BIRD는 이러한 요인이 SQL 정확도에 미치는 영향을 수치화했으며, 그 수치는 전처리를 단순한 사후 고려 사항이 아닌 핵심적인 문제로 다루기에 충분할 만큼 큽니다.

BIRD가 다루지 않는 것: 밸런스 검증(balance assertion), 패드 지시어(pad directive), 다중 통화 기입과 같은 장부 고유의 구조는 표준 SQL에 대응하는 개념이 없으므로, BQL 에이전트는 BIRD가 측정하지 못하는 복잡성에 직면하게 될 것입니다. 즉, 이 벤치마크는 최종 목표가 아닌 유용한 최소 기준선입니다.

다음 읽을거리

Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows (arXiv:2502.04306, ICLR 2025 Oral) — 클라우드 데이터베이스 및 멀티 파일 워크플로우가 있는 기업 환경으로 BIRD를 확장합니다. 실제 배포 격차를 이해하기 위한 자연스러운 다음 단계입니다.
SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation (arXiv:2506.07423) — 자동화된 파이프라인을 통해 BIRD의 수동 증거 가정을 직접 해결합니다.
DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction (arXiv:2304.11015, NeurIPS 2023) — 상위 BIRD 베이스라인 중 하나로, 복잡한 SQL 쿼리를 하위 문제로 분해하여 정확도를 높이는 방법을 보여줍니다. Beancount 장부에 대한 다단계 BQL 쿼리에 직접 적용할 수 있는 기술입니다.

Share on Twitter Follow @beancount_io

BIRD 벤치마크: LLM Text-to-SQL의 실제 데이터베이스 격차

논문 내용

주요 아이디어

유효한 점과 그렇지 않은 점

이것이 금융 AI에 중요한 이유

다음 읽을거리

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용​

주요 아이디어​

유효한 점과 그렇지 않은 점​

이것이 금융 AI에 중요한 이유​

다음 읽을거리​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용

주요 아이디어

유효한 점과 그렇지 않은 점

이것이 금융 AI에 중요한 이유

다음 읽을거리