본문으로 건너뛰기

Toolformer: 자기 지도형 도구 사용과 금융 AI를 위한 한계

· 약 6분
Tian Pan
Research Engineer

Toolformer(Schick et al., 2023, Meta AI)는 자기 지도 학습을 통해 언어 모델에 외부 API 호출 방법을 가르친 기초적인 논문입니다. 저는 그동안 이 논문을 꼼꼼히 읽는 것을 미뤄왔는데, "도구 사용(tool use)"이라는 용어가 너무 유행어가 되어버려 원래의 주장이 흐려졌기 때문입니다. 장부(ledger) 도구를 호출하는 라이트백(write-back) 에이전트를 설계하기 전에, Toolformer가 실제로 무엇을 입증했는지, 그리고 어느 지점에서 한계를 보이는지 이해할 필요가 있었습니다.

논문 요약

2026-04-16-toolformer-language-models-teach-themselves-use-tools

Meta AI의 Timo Schick와 7명의 공동 저자는 각 도구에 대한 수동 레이블링 데이터 없이도 언어 모델이 외부 API를 언제 호출할지, 어떤 인수를 전달할지, 결과를 어떻게 예측에 반영할지를 스스로 결정하도록 학습시키는 방법을 제시합니다. 이 방식은 자기 지도형(self-supervised)입니다. 모델은 텍스트의 그럴듯한 위치에 후보 API 호출을 생성하고, 이를 실행한 뒤 API 결과가 주변 토큰에 대한 모델의 퍼플렉시티(perplexity)를 실질적으로 낮추는 예시만 남깁니다. 이렇게 필터링된 데이터셋은 파인튜닝에 사용됩니다. 테스트된 도구에는 계산기, 두 개의 검색 엔진(BM25 검색 및 위키백과 검색), QA 모델, 번역기, 캘린더가 포함되었습니다.

학습된 모델은 GPT-J 기반의 67억(6.7B) 파라미터 모델로, 저자들은 이를 Toolformer라고 부릅니다. 이 논문은 NeurIPS 2023에 채택되었습니다.

핵심 아이디어

  • 수학 문장제(SVAMP)에서 Toolformer 6.7B는 29.4%를 기록했습니다. 이는 GPT-J 베이스라인(5.2%), OPT 66B(4.9%), GPT-3 175B(10.0%)와 대조적입니다. 도구 사용은 산술 연산에서 통상적인 모델 확장 곡선(scaling curve)을 효과적으로 무너뜨렸습니다.
  • ASDiv 수학에서 Toolformer는 40.4%를 달성한 반면, GPT-J는 7.5%, GPT-3는 14.0%에 그쳤습니다. MAWPS에서는 44.0% 대 GPT-J 9.9%, GPT-3 19.8%를 기록했습니다.
  • 사실 관계 QA 작업에서는 결과가 뒤집혔습니다. Toolformer가 검색 도구를 사용함에도 불구하고 GPT-3는 세 가지 QA 벤치마크(TriviaQA, WebQuestions, Natural Questions) 모두에서 Toolformer보다 우수한 성능을 보였습니다. Toolformer TriviaQA는 53.5%로 GPT-J 베이스라인(31.9%)보다는 높았으나, 도구가 없는 GPT-3가 여전히 더 높았습니다.
  • 자기 지도형 데이터 생성 파이프라인은 모델이 도움이 되지 않을 때 API를 호출하지 않도록 학습하는 예시를 생성합니다. 필터링 단계에서는 "이 도구 호출이 실제로 도움이 되었는가?"를 판단하는 신호로 퍼플렉시티 개선도를 사용합니다.
  • 도구 사용 능력은 일정 규모 이상에서만 나타납니다. 약 7억 7,500만(775M) 파라미터 미만의 모델은 동일한 학습 신호를 주더라도 도구 호출 시점을 안정적으로 학습하지 못했습니다.
  • 캘린더 도구는 시간 추론 작업에서 단 0.2%만 호출되었습니다. 모델은 시간 관련 질문을 주로 위키백과 검색 도구로 유도하는 경향을 보였습니다.

유효한 점과 그렇지 않은 점

이 논문의 핵심 통찰은 여전히 유효합니다. 퍼플렉시티 기반의 필터링 기법은 인간의 레이블링이나 정답을 아는 오라클(oracle)이 필요 없으며, 삽입된 API 결과가 주변 텍스트를 더 예측 가능하게 만들었는지만 확인하면 되기 때문에 매우 우아합니다. 이는 진정한 기여이며 산술 연산 결과는 놀랍습니다. 6.7B 모델이 ASDiv에서 GPT-3를 이긴 것은 평가상의 트릭이 아닙니다. 적절한 도구 호출이 산술 작업에서 약 26배 더 많은 파라미터를 갖는 것과 같은 가치가 있음을 명확히 보여준 것입니다.

반면, QA 부문의 성과는 덜 설득력 있습니다. 논문은 Toolformer가 전반적인 성능을 향상시킨다고 설명하지만, QA 결과는 도구가 없는 훨씬 거대한 모델인 GPT-3를 이기지 못함을 보여줍니다. 저자들도 이를 인정하면서도 "종종 훨씬 큰 모델과 경쟁할 만하다"는 서사적 프레임워크를 사용하는데, 이는 이 승리가 얼마나 선택적인지를 과소평가한 것입니다. 모델은 단일 계산기 호출이나 조회로 깔끔하게 분해되는 작업에서는 승리하지만, 검색된 내용에 대한 진정한 추론이 필요한 작업에서는 패배하거나 비슷하게 유지됩니다.

더 깊은 방법론적 문제는 자기 지도 파이프라인이 모델이 도구 학습을 하기 전에도 그럴듯한 API 호출을 생성할 만큼 이미 충분히 똑똑하다고 가정한다는 점입니다. 이는 부트스트래핑(bootstrapping) 문제입니다. 입력 형식이 명확한 계산기 같은 잘 구조화된 도구에는 작동하지만, 인수 스키마가 복잡한 도구(실제 장부 라이트백 API에 필요한 도구들)의 경우 샘플링된 호출의 품질이 급격히 떨어질 것입니다.

또한 이 논문은 각 도구를 독립적으로 평가하며 조합해서는 평가하지 않습니다. 예를 들어 검색 결과가 계산기로 입력되는 다단계 파이프라인은 보여주지 않습니다. 저자들은 이를 한계점으로 명시했지만, 이는 중대한 문제입니다. 실제 회계 워크플로우는 거의 항상 연쇄적인 도구 호출을 필요로 하기 때문입니다.

마지막으로, 평가는 제로샷(zero-shot)으로 이루어졌습니다. 문맥 내에서 도구가 제공되는 퓨샷(few-shot) 프롬프팅 방식의 GPT-3나 GPT-4와의 비교는 없는데, 이는 논문 발표 후 몇 달 만에 지배적인 패러다임이 되었습니다. NeurIPS 2023 출판일 기준으로 실험 데이터는 함수 호출(function-calling) API가 널리 보급되기 이전의 것이어서 비교군이 다소 구식입니다.

금융 AI에 주는 시사점

Toolformer 논문은 Bean Labs를 위해 제가 고민하던 질문에 답을 줍니다. "모델이 라이트백 API를 안정적으로 호출하도록 학습할 수 있는가, 그리고 그 비용은 얼마인가?" 산술 결과로 본 대답은 "도구 인터페이스가 깔끔하고 작업이 단일 호출로 분해된다면 그렇다"입니다. 하지만 실패 사례들은 장부 문제의 가장 어려운 부분들과 직접적으로 맞닿아 있습니다.

Beancount 라이트백 작업(거래 분류, 계정 매핑 추론, 저널 엔트리 생성)은 단일 단계의 계산기 호출이 아닙니다. 여기에는 문맥 검색(이전 엔트리, 계정 체계), 규칙 적용(포스팅 규칙, 통화 제약), 그리고 구문적으로 유효해야 하는 구조화된 출력 생성이 포함됩니다. 이는 최소 3개의 연쇄적인 도구 호출이 필요하지만, Toolformer 아키텍처는 명시적으로 도구 연쇄를 지원하지 않습니다. 퍼플렉시티 기반의 학습 신호도 적용하기 어렵습니다. 출력이 자연어 지속이 아니라 구조화된 .beancount 파일일 때 "주변 장부 텍스트에 대한 낮은 퍼플렉시티"가 무엇을 의미하는지 명확하지 않기 때문입니다.

Toolformer에서 얻을 수 있는 더 유용한 교훈은 그 반대 급부에 있습니다. 라이트백 에이전트는 단순히 장부 API 호출 시점을 암기한 파인튜닝된 LM이어서는 안 됩니다. 쓰기 작업을 확정하기 전에 계획을 세우고, 실행하고, 중간 결과를 확인하는 명시적인 추론 계층(ReAct 등)이 필요합니다. Toolformer는 도구 사용이 가능하다는 것을 증명했지만, 구조화되어 있고 부수 효과(side-effect)가 발생하는 작업에서 안전하게 작동한다는 것을 증명하지는 못했습니다.

더 읽어볼 내용

  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — 도구 호출 사이에 명시적인 사고의 연쇄(chain-of-thought) 추론 단계를 추가합니다. Toolformer의 연쇄 호출 한계를 해결하며 대부분의 현대적 에이전트의 기초가 되는 아키텍처입니다.
  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — ToolBench 데이터셋을 통해 16,000개 이상의 실제 API로 도구 사용을 확장합니다. 실제 회계 에이전트가 마주할 복잡성 수준에서 도구 호출을 스트레스 테스트한 사례에 가장 가깝습니다.
  • FinMaster (arXiv:2505.13533) — 저널 엔트리와 정산을 포함한 엔드 투 엔드 회계 워크플로우를 벤치마킹합니다. Toolformer가 산술에서 보여준 이점이 Beancount에 중요한 다단계, 스키마 제약 작업으로 일반화되는지 보여줄 것입니다.