TableMaster는 집중 표(table-of-focus) 추출, 의미론적 구어화, 텍스트와 기호 추론 간의 적응형 전환을 결합하여 GPT-4o-mini 기준 WikiTQ에서 Chain-of-Table보다 13점 높은 78.13%를 달성한 프롬프팅 전용 파이프라인입니다. 이 아키텍처가 Beancount와 같은 재무 장부를 다루는 AI 에이전트에 어떤 의미를 갖는지 살펴봅니다.
Chain-of-Table (ICLR 2024)는 테이블 자체를 중간 상태로 진화시켜 LLM의 표 형식 추론을 개선합니다. WikiTQ에서 기존 베이스라인의 61.48% 대비 67.31%의 정확도를 달성했으며, 4,000 토큰을 초과하는 테이블에서 +10.25포인트의 이점을 보여 Beancount 원장 쿼리 에이전트에 직접 적용 가능합니다.
TableLlama fine-tunes Llama 2 (7B) on 2.6M table-task examples and beats GPT-4 on structural tasks like column type annotation (F1 94 vs 32), but falls 33 points short on WikiTQ compositional reasoning — a calibrated benchmark for what 7B open models can and cannot do in finance AI today.
TAPAS(Google Research, ACL 2020)는 SQL 생성 없이 셀을 선택하고 스칼라 집계를 적용하여 테이블 관련 질문에 답합니다. 이 포스트에서는 TAPAS의 아키텍처, 12포인트의 SQA 정확도 향상, 그리고 셀 선택 패러다임이 소규모 Beancount 장부 쿼리에는 적합하지만 대규모에서는 한계를 보이는 이유를 분석합니다.
MAC-SQL(COLING 2025)은 스키마 축소를 위한 Selector, 질문 분해를 위한 Decomposer, 실행 가이드 기반 SQL 수정을 위한 Refiner라는 세 가지 전문 에이전트를 사용하여 BIRD 벤치마크에서 59.59%의 실행 정확도를 달성했습니다. 절제 연구(ablation study)에 따르면 Refiner가 가장 큰 기여(+4.63점)를 했으며, 이는 Beancount 장부 쿼리 생성에 직접적인 시사점을 제공합니다.
DIN-SQL (NeurIPS 2023)은 텍스트-to-SQL 과정을 스키마 링킹, 복잡성 분류, SQL 생성 단계로 분해하여, 파인튜닝 없이 GPT-4의 Spider 실행 정확도를 67.4%에서 85.3%로 끌어올렸습니다. 이러한 분해 전략은 Beancount의 BQL 쿼리 언어를 위한 자연어 인터페이스에도 직접적으로 적용될 수 있습니다.
BIRD 벤치마크(NeurIPS 2023)는 95개의 실제 데이터베이스를 대상으로 LLM을 테스트합니다. GPT-4는 도메인 힌트가 있는 경우 54.89%, 없는 경우 34.88%의 실행 정확도만을 기록하며 20포인트의 격차를 보였습니다. 이는 Beancount를 위한 자연어 BQL 인터페이스가 해결해야 할 과제를 직접적으로 보여줍니다.
Microsoft의 GraphRAG는 텍스트 코퍼스에 대해 Leiden 분할 엔티티 그래프를 구축하고 커뮤니티 요약을 사전 계산하여 표준 벡터 RAG가 처리할 수 없는 글로벌 의미 파악 질문에 답합니다. 하지만 2025년 편향 감사에 따르면, LLM 판사 평가의 위치 및 길이 왜곡을 수정한 후에는 72~83%였던 승률이 급락하는 것으로 나타났습니다.