본문으로 건너뛰기

Bean Labs Research Log

τ-bench: 실제 도구 사용 도메인에서의 AI 에이전트 신뢰도 측정

τ-bench는 Claude 3.5 Sonnet과 같은 최상위 LLM이 소매 고객 서비스 작업에서 pass@1 0.692에서 pass@4 0.462로 떨어진다는 점을 보여줍니다. 이는 Beancount 원장에서 작동하는 모든 쓰기 가능(write-back) 에이전트에게 직접적인 시사점을 주는 일관성의 절벽(consistency cliff)을 나타냅니다.

Latest articles

Chain-of-Table: LLM 추론 체인에서의 테이블 진화

Chain-of-Table (ICLR 2024)는 테이블 자체를 중간 상태로 진화시켜 LLM의 표 형식 추론을 개선합니다. WikiTQ에서 기존 베이스라인의 61.48% 대비 67.31%의 정확도를 달성했으며, 4,000 토큰을 초과하는 테이블에서 +10.25포인트의 이점을 보여 Beancount 원장 쿼리 에이전트에 직접 적용 가능합니다.

TAPAS: SQL 없는 약지도 학습 기반 테이블 질의응답과 Beancount에 주는 의미

TAPAS(Google Research, ACL 2020)는 SQL 생성 없이 셀을 선택하고 스칼라 집계를 적용하여 테이블 관련 질문에 답합니다. 이 포스트에서는 TAPAS의 아키텍처, 12포인트의 SQA 정확도 향상, 그리고 셀 선택 패러다임이 소규모 Beancount 장부 쿼리에는 적합하지만 대규모에서는 한계를 보이는 이유를 분석합니다.

MAC-SQL: 다중 에이전트 협업 텍스트-SQL(Text-to-SQL)

MAC-SQL(COLING 2025)은 스키마 축소를 위한 Selector, 질문 분해를 위한 Decomposer, 실행 가이드 기반 SQL 수정을 위한 Refiner라는 세 가지 전문 에이전트를 사용하여 BIRD 벤치마크에서 59.59%의 실행 정확도를 달성했습니다. 절제 연구(ablation study)에 따르면 Refiner가 가장 큰 기여(+4.63점)를 했으며, 이는 Beancount 장부 쿼리 생성에 직접적인 시사점을 제공합니다.

DIN-SQL: Text-to-SQL을 위한 분해된 인컨텍스트 학습(Decomposed In-Context Learning)

DIN-SQL (NeurIPS 2023)은 텍스트-to-SQL 과정을 스키마 링킹, 복잡성 분류, SQL 생성 단계로 분해하여, 파인튜닝 없이 GPT-4의 Spider 실행 정확도를 67.4%에서 85.3%로 끌어올렸습니다. 이러한 분해 전략은 Beancount의 BQL 쿼리 언어를 위한 자연어 인터페이스에도 직접적으로 적용될 수 있습니다.

BIRD 벤치마크: LLM Text-to-SQL의 실제 데이터베이스 격차

BIRD 벤치마크(NeurIPS 2023)는 95개의 실제 데이터베이스를 대상으로 LLM을 테스트합니다. GPT-4는 도메인 힌트가 있는 경우 54.89%, 없는 경우 34.88%의 실행 정확도만을 기록하며 20포인트의 격차를 보였습니다. 이는 Beancount를 위한 자연어 BQL 인터페이스가 해결해야 할 과제를 직접적으로 보여줍니다.

LLM 에이전트를 위한 검증 가능한 안전한 도구 사용: STPA와 MCP의 만남

CMU 및 NC State 연구진은 시스템 이론적 공정 분석(STPA)과 기능이 강화된 모델 컨텍스트 프로토콜을 사용하여 LLM 에이전트 도구 사용에 대한 형식적 안전 사양을 도출할 것을 제안하며, 캘린더 일정 관리 사례 연구를 통해 안전하지 않은 흐름이 없음을 입증하는 Alloy 기반 검증을 선보입니다.

GraphRAG: 로컬에서 글로벌 쿼리 중심 요약까지

Microsoft의 GraphRAG는 텍스트 코퍼스에 대해 Leiden 분할 엔티티 그래프를 구축하고 커뮤니티 요약을 사전 계산하여 표준 벡터 RAG가 처리할 수 없는 글로벌 의미 파악 질문에 답합니다. 하지만 2025년 편향 감사에 따르면, LLM 판사 평가의 위치 및 길이 왜곡을 수정한 후에는 72~83%였던 승률이 급락하는 것으로 나타났습니다.

FinAuditing: 실제 SEC XBRL 감사 작업에서 LLM의 점수가 14% 미만을 기록함

FinAuditing은 1,102개의 실제 SEC XBRL 공시 사례를 대상으로 13개의 LLM을 제로샷(zero-shot)으로 테스트했습니다. 최고 점수는 재무 수학 검증에서 13.86%, 개념 검색에서 12.42%로 나타났으며, 이는 외부 도구 없이 AI 회계 도구가 자동화할 수 있는 신뢰 범위의 한계를 직접적으로 보여줍니다.