본문으로 건너뛰기

GAIA 벤치마크: 프런티어 AI 에이전트의 실제 수행 능력 측정

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

에이전트가 픽셀 단위의 웹 및 데스크톱 상호작용에서 큰 어려움을 겪는 두 벤치마크인 WebArena와 OSWorld를 살펴본 후, 저는 그러한 구성을 의도적으로 피한 보완적인 벤치마크를 찾아보고 싶었습니다. GAIA(Mialon et al., ICLR 2024)는 "인간에게는 개념적으로 간단하지만 대부분의 고급 AI에게는 어려운" 질문에 대해 범용 AI 어시스턴트를 평가하며, 이는 Beancount 어시스턴트가 실제로 필요로 하는 자율 에이전트 능력을 더 직접적으로 측정합니다.

논문 개요

2026-06-16-gaia-benchmark-general-ai-assistants

GAIA는 날카로운 질문을 던집니다. 대부분의 LLM 벤치마크(변호사 시험, 의사 고시, 대학원 수준 수학)를 정의하는 전문 자격 시험 위주의 구성을 걷어낸다면, 프런티어 모델들이 실제 인간 어시스턴트가 처리할 법한 일상적인 조사 및 추론 작업에서 얼마나 잘 수행할까요? Mialon, Fourrier, Swift, Wolf, LeCun, Scialom 등 연구진은 웹 브라우징, 코드 실행, 멀티모달 이해, 다단계 추론이 필요하면서도 정답이 명확하고 간결하여 자동 검증이 가능한 466개의 실제 질문을 모았습니다.

벤치마크는 세 가지 레벨로 나뉩니다. 레벨 1(약 146개 질문)은 최소한의 도구 사용으로 5단계 미만에서 해결 가능한 문제를 다룹니다. 레벨 2(약 245개 질문)는 5~10단계에 걸쳐 여러 도구를 정확하게 조정해야 합니다. 레벨 3(약 75개 질문)은 장기적인 계획 수립과 정교한 도구 통합을 요구합니다. 이는 임의의 분류가 아니며, 자율 에이전트가 유지해야 하는 조정 오버헤드를 직접적으로 추적합니다.

주요 개념

  • 인간은 전체적으로 92%를 득점합니다. 플러그인을 사용한 GPT-4는 발표 당시 15%에 그쳤는데, 이는 유능한 사람이 몇 분 만에 해결하는 작업에서 77포인트의 격차가 있음을 보여줍니다.
  • 이 벤치마크는 시험형 벤치마크와 달리 "꼼수"가 통하지 않습니다. 정답을 맞히려면 인덱싱되지 않은 사실을 찾거나, 계산을 실행하거나, 여러 양식(modality)을 합성해야 하므로 사전 학습된 지식의 회상만으로는 거의 작동하지 않습니다.
  • 세 가지 레벨은 에이전트 파이프라인이 실제로 무너지는 지점을 노출합니다. 레벨 1은 우수한 정보 검색에 보상을 주고, 레벨 2는 도구 호출 간의 오류 누적에 벌칙을 주며, 레벨 3은 여러 단계에 걸친 지속적인 목표 추적을 요구하는데, 발표 당시 어떤 시스템도 이를 안정적으로 수행하지 못했습니다.
  • 질문들은 설계상 모호함이 없습니다. 각각 하나의 정확한 단답형 답변을 가지므로 자동 평가의 신뢰성은 높지만, 작업 유형이 개방형 추론보다는 검색 후 도출(lookup-and-derive) 방식으로 제한됩니다.
  • 2026년 중반 기준으로 HAL 리더보드에서 가장 우수한 성적을 기록한 에이전트(Claude Sonnet 4.5)는 전체 74.55%에 도달했습니다(레벨 1 82%, 레벨 2 73%, 레벨 3 65%). 인간의 성능은 여전히 약 92%이므로 레벨 3에는 여전히 유의미한 격차가 존재합니다.
  • 검증 세트(validation set)는 현재 널리 공개되어 학습 데이터에 유출되었을 가능성이 매우 높으며, 이로 인해 최신 모델의 검증 세트 점수는 사실상 해석이 불가능해졌습니다. 비공개 테스트 세트(held-out test set)는 여전히 깨끗하지만 자가 평가를 위해서는 접근할 수 없습니다.

유효한 것과 그렇지 않은 것

프런티어 LLM이 실제 어시스턴트 작업에서 인간 수준의 견고함에 전혀 미치지 못한다는 핵심 통찰은 2023년 말 당시 매우 중요했으며, 에이전트 연구의 생산적인 흐름을 일으켰습니다. 세 가지 레벨 구조는 잘 조정되어 있습니다. 레벨 1과 레벨 3은 의미 있게 다른 능력 수준을 차지하며, 벤치마크 성능이 한쪽 극단으로 쏠리지 않습니다.

이 논문이 시대에 뒤처진 부분은 평가 설정에 있습니다. "플러그인이 포함된 GPT-4" 베이스라인은 ICLR 2024가 열릴 무렵 이미 구식이 되었습니다. Claude 3.7 Sonnet이나 Claude Sonnet 4.5를 사용하는 현대적인 에이전트들은 레벨 1과 2에서 많은 격차를 좁혔습니다. 더 심각한 문제는 질문의 약 5%가 정답에 오류나 모호함이 있다는 점이며, 저자들은 이를 인정하면서도 수정된 데이터셋을 발표하지 않았습니다. 이는 466개 질문 규모의 벤치마크에서 무시할 수 없는 신뢰성 문제입니다.

더 근본적인 한계는 답변 형식입니다. GAIA가 작동하는 이유는 모든 답변이 검증 가능한 짧은 문자열이기 때문입니다. 이러한 제약은 작업을 "무언가를 찾아보고 계산하거나 변환하기"로 제한하며, "계획을 세우고, 실행하고, 구조화된 결과물을 생성하기"와 같은 작업은 다루지 못합니다. 한 달 치 거래 내역 대조, 다단계 거래를 위한 장부 기입, 연말 보고서 생성과 같은 실제 Beancount 사용 사례는 이 틀에 맞지 않습니다. GAIA는 범용 어시스턴트에게 필요한 한 가지 측면을 측정할 뿐, 엔드투엔드 워크플로 실행 능력을 측정하지는 않습니다.

데이터 오염 상황은 이제 심각합니다. 명시적인 예방 조치 없이 검증 세트 정확도를 주요 수치로 내세우는 에이전트는 의심해 봐야 합니다. 최신 모델의 리더보드 순위는 상당 부분 학습 데이터의 중첩을 반영할 가능성이 큽니다.

금융 AI에 중요한 이유

2년 반 동안 15%에서 74%로 상승한 궤적은 고무적이지만, 남아 있는 레벨 3의 격차야말로 Beancount 자동화가 해결해야 할 핵심 영역입니다. 레벨 3 작업은 목표를 잃지 않고 여러 단계에 걸쳐 중간 상태를 추적해야 합니다. 이는 장부 쓰기 작업(write-back) 에이전트가 계정 잔액을 가져오고, 대조 규칙을 적용하고, 제약 조건에 따라 결과를 확인한 다음 커밋하거나 롤백할 때 수행해야 하는 작업과 정확히 일치합니다. 프런티어 에이전트들이 인간에게 개념적으로 간단한 레벨 3 GAIA 질문에서 여전히 35%의 실패율을 보인다면, 이는 다단계 장부 작업의 신뢰성에 대한 직접적인 경고입니다.

모호하지 않고 검증 가능하며 인간이 처리 가능한 GAIA의 설계 원칙은 Beancount 에이전트를 평가하는 데에도 유용한 템플릿입니다. 저는 "FinGAIA" 세트가 어떤 모습일지 고민해 왔습니다. "이 장부 파일이 주어졌을 때, 월말에 마이너스 잔액이 발생한 계정은 무엇인가?" 또는 "2024-12-31 기준 EUR 잔액의 USD 환산액은 얼마인가?"와 같은 질문들은 모호하지 않고 도구 사용이 필요하며, 세 가지 복잡도 수준에 따라 점진적으로 난이도가 높아집니다. GAIA의 방법론은 도메인만 바꾸면 바로 적용 가능합니다.

GAIA가 다루지 않는 한 가지, 그리고 Bean Labs가 궁극적으로 해결해야 할 과제는 안전한 쓰기 작업(safe write-back)입니다. 모든 GAIA 작업은 읽고 답하기(read-and-answer) 방식입니다. 장부 상태를 수정하는 자율 Beancount 에이전트는 정확성, 원자성(atomicity), 가역성(reversibility)에 대한 별도의 평가 프로토콜이 필요합니다. GAIA는 에이전트가 정답을 맞힐 수 있음을 보여주지만, 그것을 안전하게 장부에 반영할 수 있는지에 대해서는 아무것도 말해주지 않습니다.

다음 읽을거리

  • TheAgentCompany (arXiv:2412.14161) — 실제 내부 도구를 갖춘 가상 소프트웨어 회사 내에서의 175개 작업. 최고의 에이전트가 자율적으로 24%를 완료함. 실제 회계 워크플로에 내장된 Beancount 에이전트를 평가하는 데 가장 직접적인 유추 대상.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — 실제 사용자가 제출한 시간이 많이 소요되는 현실적인 작업에 대해 웹 에이전트를 벤치마킹함. 고정된 검증 가능 답변 대신 개방형 정보 검색을 테스트함으로써 GAIA를 보완함.
  • WorkArena++ (arXiv:2407.05291) — WorkArena를 682개의 구성적이고 다단계인 기업용 작업으로 확장함. 가장 어려운 레벨 3은 현재 어떤 모델로도 해결되지 않았으며, GAIA 레벨 3 이후의 다음 난이도 개척지로 꼽힘.