본문으로 건너뛰기
Queries

모든 것에 대하여 Queries

8개의 기사
Query generation, table reasoning, and structured data retrieval for financial AI

TableMaster: LLM을 활용한 표 이해를 위한 적응형 추론

TableMaster는 집중 표(table-of-focus) 추출, 의미론적 구어화, 텍스트와 기호 추론 간의 적응형 전환을 결합하여 GPT-4o-mini 기준 WikiTQ에서 Chain-of-Table보다 13점 높은 78.13%를 달성한 프롬프팅 전용 파이프라인입니다. 이 아키텍처가 Beancount와 같은 재무 장부를 다루는 AI 에이전트에 어떤 의미를 갖는지 살펴봅니다.

Chain-of-Table: LLM 추론 체인에서의 테이블 진화

Chain-of-Table (ICLR 2024)는 테이블 자체를 중간 상태로 진화시켜 LLM의 표 형식 추론을 개선합니다. WikiTQ에서 기존 베이스라인의 61.48% 대비 67.31%의 정확도를 달성했으며, 4,000 토큰을 초과하는 테이블에서 +10.25포인트의 이점을 보여 Beancount 원장 쿼리 에이전트에 직접 적용 가능합니다.

TAPAS: SQL 없는 약지도 학습 기반 테이블 질의응답과 Beancount에 주는 의미

TAPAS(Google Research, ACL 2020)는 SQL 생성 없이 셀을 선택하고 스칼라 집계를 적용하여 테이블 관련 질문에 답합니다. 이 포스트에서는 TAPAS의 아키텍처, 12포인트의 SQA 정확도 향상, 그리고 셀 선택 패러다임이 소규모 Beancount 장부 쿼리에는 적합하지만 대규모에서는 한계를 보이는 이유를 분석합니다.

MAC-SQL: 다중 에이전트 협업 텍스트-SQL(Text-to-SQL)

MAC-SQL(COLING 2025)은 스키마 축소를 위한 Selector, 질문 분해를 위한 Decomposer, 실행 가이드 기반 SQL 수정을 위한 Refiner라는 세 가지 전문 에이전트를 사용하여 BIRD 벤치마크에서 59.59%의 실행 정확도를 달성했습니다. 절제 연구(ablation study)에 따르면 Refiner가 가장 큰 기여(+4.63점)를 했으며, 이는 Beancount 장부 쿼리 생성에 직접적인 시사점을 제공합니다.

DIN-SQL: Text-to-SQL을 위한 분해된 인컨텍스트 학습(Decomposed In-Context Learning)

DIN-SQL (NeurIPS 2023)은 텍스트-to-SQL 과정을 스키마 링킹, 복잡성 분류, SQL 생성 단계로 분해하여, 파인튜닝 없이 GPT-4의 Spider 실행 정확도를 67.4%에서 85.3%로 끌어올렸습니다. 이러한 분해 전략은 Beancount의 BQL 쿼리 언어를 위한 자연어 인터페이스에도 직접적으로 적용될 수 있습니다.

BIRD 벤치마크: LLM Text-to-SQL의 실제 데이터베이스 격차

BIRD 벤치마크(NeurIPS 2023)는 95개의 실제 데이터베이스를 대상으로 LLM을 테스트합니다. GPT-4는 도메인 힌트가 있는 경우 54.89%, 없는 경우 34.88%의 실행 정확도만을 기록하며 20포인트의 격차를 보였습니다. 이는 Beancount를 위한 자연어 BQL 인터페이스가 해결해야 할 과제를 직접적으로 보여줍니다.

GraphRAG: 로컬에서 글로벌 쿼리 중심 요약까지

Microsoft의 GraphRAG는 텍스트 코퍼스에 대해 Leiden 분할 엔티티 그래프를 구축하고 커뮤니티 요약을 사전 계산하여 표준 벡터 RAG가 처리할 수 없는 글로벌 의미 파악 질문에 답합니다. 하지만 2025년 편향 감사에 따르면, LLM 판사 평가의 위치 및 길이 왜곡을 수정한 후에는 72~83%였던 승률이 급락하는 것으로 나타났습니다.