FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP
MCP стал фактическим стандартом интеграции для использования инструментов LLM — Anthropic представила его в конце 2024 года, а к началу 2026 года его приняли все основные поставщики моделей. FinMCP-Bench (arXiv:2603.24943, ICASSP 2026) — это первый бенчмарк, построенный на реальных серверах инструментов MCP специально для финансовых агентов. Он появился как раз вовремя, чтобы показать, помогает ли эта стандартизированная инфраструктура агентам выполнять полезную финансовую работу.
О статье
Цзе Чжу, Иминь Тянь и коллеги из команды Alibaba Cloud Qwen DianJin, YINGMI Wealth Management и Университета Сучжоу представляют FinMCP-Bench — оценочный набор из 613 образцов, охватывающий 10 категорий финансовых сценариев и 33 подсценария. Инструменты здесь не являются симуляциями — бенчмарк поддерживают 65 реальных MCP-совместимых серверов финансовых инструментов, взятых из реальных логов работы финансового помощника Qieman APP. Авторы разделяют образцы на три типа: 145 задач с одним инструментом, 249 с несколькими инструментами и 219 многоходовых диалогов. Они тестируют шесть моделей: семейство Qwen3 (4B, 30B и 235B параметров, все с режимом расширенного мышления), а также DeepSeek-R1, GPT-OSS-20B и Seed-OSS-36B. Основными метриками оценки являются точность (Tool Precision), полнота (Tool Recall), F1-мера (Tool F1) и показатель точного совпадения (EMR), который требует, чтобы каждый вызов инструмента в последовательности был абсолютно верным.
Ключевые идеи
- MCP как основа оценки: использование определений реальных серверов MCP вместо синтетических схем API сокращает разрыв между бенчмарком и тем, с чем агенты сталкиваются в реальных финансовых системах.
- Трехуровневое разделение сложности: задачи с одним инструментом, несколькими инструментами и многоходовые сценарии различаются не только количеством действий — они выявляют качественно разные типы сбоев.
- Крах на многоходовых задачах: лучшая модель (Qwen3-235B) достигает 60% EMR на одном инструменте, 10,62% EMR на нескольких инструментах и всего 3,08% EMR в многоходовых диалогах. Падение от простых задач к сложным — 20-кратное.
- Tool F1 более снисходителен: та же модель набирает 66,85%, 69,42% и 41,56% по метрике TF1 в трех настройках соответственно. Это показывает, что модели часто выбирают правильные инструменты, но ошибаются в порядке вызовов, параметрах или отслеживании контекста беседы.
- Полнота выше точности в простых задачах: при неуверенности модели склонны вызывать лишние инструменты, а не пропускать нужные. Для финансовых задач это более безопасный тип сбоя, хотя он и ведет к лишним вызовам API и шуму в цепочке рассуждений.
- Нелинейная масштабируемость: Qwen3-30B не всегда превосходит Qwen3-4B во всех подсценариях, что опровергает предположение о том, что большая модель всегда лучше справляется с многошаговым использованием инструментов.
Что подтверждается, а что нет
Использование реальных производственных логов для примеров с одним инструментом — самое сильное методологическое решение. Это привязывает бенчмарк к реальному поведению пользователей, а не к сценариям, выдуманным исследователями, что редко встречается в литературе по финансовому ИИ. Многоинструментальные и многоходовые образцы синтетически расширены с помощью графов зависимостей и ролевых промптов. Это разумно, учитывая стоимость разметки, но создает риск: синтез обычно выдает более чистые и понятные запросы, чем те, что пишут реальные пользователи. Показатель EMR 3,08% в многоходовых задачах пугает, но его следует интерпретировать осторожно: EMR требует идеальной точности всей последовательности, поэтому одна ошибка в промежуточном вызове приводит к провалу всей задачи. Это строгий и, возможно, нереалистичный стандарт для эксплуатации; метрики с частичным зачетом, такие как TF1, дают более нюансированную картину.
Чего в статье нет: отсутствует анализ того, является ли разрыв в производительности проблемой понимания ввода (модель неверно интерпретирует желание пользователя), проблемой форматирования вывода (верное намерение, но неверный формат вызова) или проблемой рассуждения (неверные промежуточные выводы). Без этого разделения трудно понять, куда инвестировать инженерные усилия. Также модели оцениваются изолированно; нет тестов того, изменит ли ситуацию добавление этапа верификации или рефлексии.
Бенчмарк также глубоко привязан к специфическим 65 инструментам Qieman, что ограничивает переносимость результатов на другие финансовые платформы с иным набором инструментов.
Почему это важно для ИИ в финансах
FinMCP-Bench максимально приближен к тому, что на самом деле делал бы агент для записи в Beancount: получение запроса пользователя, определение подходящего инструмента (или цепочки инструментов), их последовательный вызов и обработка последующих уточнений. Показатель EMR 3,08% для многоходовых задач — это жесткое столкновение с реальностью. Агент Beancount, управляющий многошаговой корректировкой реестра (например, переклассификация группы транзакций по счетам за определенный период с последующей сверкой и генерацией отчета), — это именно та многоходовая задача, с которой текущие модели почти повсеместно не справляются по стандартам точного совпадения.
Контекст MCP имеет прямое отношение: Python API Beancount, интерфейс beanquery и REST-слой fava — все это можно обернуть в MCP-серверы. FinMCP-Bench говорит нам, что узким местом является не протокол, а логика рассуждений над последовательностью вызовов инструментов.
Вывод о том, что полнота вызовов превышает точность (модели вызывают лишнее), также важен для безопасности записи данных: агент, вызывающий инструмент изменения реестра там, где требовалось только чтение, может незаметно повредить данные. Для агентов, работающих на запись, основным сигналом безопасности должны быть метрики, ориентированные на точность (precision), а не на полноту (recall).
Что почитать дальше
- JSONSchemaBench (arXiv:2501.10868) — оценивает надежность структурированного вывода по 10 000 схем JSON; напрямую исследует, являются ли сбои форматирования вызовов инструментов в FinMCP-Bench проблемой ограниченного декодирования.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — фундаментальный фреймворк для обучения использованию инструментов, с которым сопоставляется FinMCP-Bench; понимание его поиска по дереву помогает осознать вклад методологии FinMCP-Bench на основе реальных логов.
- WildToolBench (arXiv:2604.06185) — оценивает использование инструментов на реальных пользовательских запросах «в дикой природе»; вывод о том, что ни одна модель не превышает 15% точности на реальном поведении пользователей, дополняет подход FinMCP-Bench.
