Перейти к контенту
Automation

Все о Automation

57 статей
Automation techniques and tools for financial data processing workflows

Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв

EnterpriseArena проводит 11 LLM через 132-месячную симуляцию финансового директора, отслеживая выживаемость, итоговую оценку и частоту закрытия отчетности. Только Qwen3.5-9B выживает в 80% запусков; показатели GPT-5.4 и DeepSeek-V3.1 составили 0%. Эксперты-люди достигают 100% выживаемости при итоговой стоимости в 5 раз выше. Критическое узкое место — LLM пропускают сверку реестров в 80% случаев, действуя на основе устаревшего финансового состояния.

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

WildToolBench (ICLR 2026) оценивает 57 LLM на 1024 задачах, основанных на реальном поведении пользователей — ни одна модель не превышает 15% точности сессии, при этом композиционная оркестрация, скрытые намерения и переходы между инструкциями являются тремя наиболее критичными режимами отказа.

JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM

JSONSchemaBench тестирует 9 558 реальных схем JSON на шести фреймворках ограниченного декодирования и обнаруживает, что сложность схем приводит к падению покрытия с 86% на простых схемах до 3% на сложных, при этом XGrammar незаметно выдает 38 некорректных ответов, и ни один фреймворк не охватывает все 45 категорий функций JSON Schema.

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

FinMCP-Bench оценивает шесть моделей LLM в 613 реальных задачах по использованию финансовых инструментов на базе 65 серверов MCP. Лучшая модель показала точность 3,08% в многоходовых задачах, выявляя 20-кратное падение производительности при переходе от одного инструмента к сложным сценариям.

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

FinTrace тестирует 13 LLM на 800 аннотированных экспертами траекториях финансовых задач по 9 метрикам, обнаружив, что передовые модели демонстрируют хороший выбор инструментов (F1 ~0.9), но набирают лишь 3.23/5 по использованию информации — этапу, на котором агенты анализируют результаты работы инструментов.

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

FinToolBench объединяет 760 работающих финансовых API-инструментов с 295 исполняемыми запросами для тестирования LLM-агентов на реальных финансовых задачах. Исследование показало, что консервативная частота вызовов GPT-4o (22,7%) обеспечивает более высокое качество ответов (CSS 0,670), чем агрессивная TIR Qwen3-8B (87,1%), в то время как несоответствие намерений (intent mismatch) превышает 50% у всех протестированных моделей.

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

OmniEval (EMNLP 2025) оценивает системы RAG по 5 типам задач и 16 финансовым темам, используя 11,4 тыс. автоматически сгенерированных тестовых случаев. Лучшие системы достигают лишь 36% точности в вычислениях — это конкретное доказательство того, что RAG-конвейеры нуждаются в слоях валидации перед записью в структурированные финансовые гроссбухи.

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.

Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим

ReDAct по умолчанию запускает малую модель и переходит к дорогостоящей модели только тогда, когда перплексия на уровне токенов сигнализирует о неопределенности. Это позволяет сэкономить 64% затрат по сравнению с использованием только GPT-5.2, сохраняя или превосходя её точность — паттерн, напрямую применимый для агентов категоризации транзакций Beancount.

OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов

OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.