4 поста с тегом "Fintech"

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

FinMCP-Bench оценивает шесть моделей LLM в 613 реальных задачах по использованию финансовых инструментов на базе 65 серверов MCP. Лучшая модель показала точность 3,08% в многоходовых задачах, выявляя 20-кратное падение производительности при переходе от одного инструмента к сложным сценариям.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

FinTrace тестирует 13 LLM на 800 аннотированных экспертами траекториях финансовых задач по 9 метрикам, обнаружив, что передовые модели демонстрируют хороший выбор инструментов (F1 ~0.9), но набирают лишь 3.23/5 по использованию информации — этапу, на котором агенты анализируют результаты работы инструментов.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

FinToolBench объединяет 760 работающих финансовых API-инструментов с 295 исполняемыми запросами для тестирования LLM-агентов на реальных финансовых задачах. Исследование показало, что консервативная частота вызовов GPT-4o (22,7%) обеспечивает более высокое качество ответов (CSS 0,670), чем агрессивная TIR Qwen3-8B (87,1%), в то время как несоответствие намерений (intent mismatch) превышает 50% у всех протестированных моделей.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT и пределы специализированных LLM в сфере финансов

Компания Bloomberg обучила LLM с 50 млрд параметров на 569 млрд токенов финансовых данных и обошла универсальные модели в бенчмарках на анализ настроений и табличное мышление — однако затем GPT-4 сравнялась с ней без специального дообучения на финансах. Что этот эксперимент стоимостью 10 млн долларов говорит о компромиссах предварительного обучения на конкретной предметной области, токенизации чисел и о том, почему использование инструментов надежнее внутренних механизмов модели для бухгалтерских агентов.

Все о Fintech

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

BloombergGPT и пределы специализированных LLM в сфере финансов

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация