85 постов с тегом "Machine Learning"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

WildToolBench (ICLR 2026) оценивает 57 LLM на 1024 задачах, основанных на реальном поведении пользователей — ни одна модель не превышает 15% точности сессии, при этом композиционная оркестрация, скрытые намерения и переходы между инструкциями являются тремя наиболее критичными режимами отказа.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

Систематический обзор методов оценки и калибровки уверенности LLM — подходов «белого ящика» на основе логитов, SelfCheckGPT на основе согласованности и семантической энтропии — показывает, что показатели вербализованной уверенности GPT-4 достигают лишь ~62,7% AUROC, что едва превышает случайность. Это имеет прямые последствия для развертывания агентов, учитывающих неопределенность, в сфере финансов и бухгалтерского учета.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM

JSONSchemaBench тестирует 9 558 реальных схем JSON на шести фреймворках ограниченного декодирования и обнаруживает, что сложность схем приводит к падению покрытия с 86% на простых схемах до 3% на сложных, при этом XGrammar незаметно выдает 38 некорректных ответов, и ни один фреймворк не охватывает все 45 категорий функций JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

FinMCP-Bench оценивает шесть моделей LLM в 613 реальных задачах по использованию финансовых инструментов на базе 65 серверов MCP. Лучшая модель показала точность 3,08% в многоходовых задачах, выявляя 20-кратное падение производительности при переходе от одного инструмента к сложным сценариям.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

FinTrace тестирует 13 LLM на 800 аннотированных экспертами траекториях финансовых задач по 9 метрикам, обнаружив, что передовые модели демонстрируют хороший выбор инструментов (F1 ~0.9), но набирают лишь 3.23/5 по использованию информации — этапу, на котором агенты анализируют результаты работы инструментов.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

FinToolBench объединяет 760 работающих финансовых API-инструментов с 295 исполняемыми запросами для тестирования LLM-агентов на реальных финансовых задачах. Исследование показало, что консервативная частота вызовов GPT-4o (22,7%) обеспечивает более высокое качество ответов (CSS 0,670), чем агрессивная TIR Qwen3-8B (87,1%), в то время как несоответствие намерений (intent mismatch) превышает 50% у всех протестированных моделей.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

OmniEval (EMNLP 2025) оценивает системы RAG по 5 типам задач и 16 финансовым темам, используя 11,4 тыс. автоматически сгенерированных тестовых случаев. Лучшие системы достигают лишь 36% точности в вычислениях — это конкретное доказательство того, что RAG-конвейеры нуждаются в слоях валидации перед записью в структурированные финансовые гроссбухи.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Критический разбор обзора Сюй и Дина для NAACL 2025 об обнаружении аномалий и OOD на базе LLM. Таксономия «обнаружение против генерации» актуальна, но почти полное отсутствие табличных данных вынуждает специалистов по финансовому ИИ самостоятельно адаптировать наработки из моделей компьютерного зрения.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.

Все о Machine Learning

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация