40 постов с тегом "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

WildToolBench (ICLR 2026) оценивает 57 LLM на 1024 задачах, основанных на реальном поведении пользователей — ни одна модель не превышает 15% точности сессии, при этом композиционная оркестрация, скрытые намерения и переходы между инструкциями являются тремя наиболее критичными режимами отказа.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

Систематический обзор методов оценки и калибровки уверенности LLM — подходов «белого ящика» на основе логитов, SelfCheckGPT на основе согласованности и семантической энтропии — показывает, что показатели вербализованной уверенности GPT-4 достигают лишь ~62,7% AUROC, что едва превышает случайность. Это имеет прямые последствия для развертывания агентов, учитывающих неопределенность, в сфере финансов и бухгалтерского учета.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

FinToolBench объединяет 760 работающих финансовых API-инструментов с 295 исполняемыми запросами для тестирования LLM-агентов на реальных финансовых задачах. Исследование показало, что консервативная частота вызовов GPT-4o (22,7%) обеспечивает более высокое качество ответов (CSS 0,670), чем агрессивная TIR Qwen3-8B (87,1%), в то время как несоответствие намерений (intent mismatch) превышает 50% у всех протестированных моделей.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

OmniEval (EMNLP 2025) оценивает системы RAG по 5 типам задач и 16 финансовым темам, используя 11,4 тыс. автоматически сгенерированных тестовых случаев. Лучшие системы достигают лишь 36% точности в вычислениях — это конкретное доказательство того, что RAG-конвейеры нуждаются в слоях валидации перед записью в структурированные финансовые гроссбухи.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Критический разбор обзора Сюй и Дина для NAACL 2025 об обнаружении аномалий и OOD на базе LLM. Таксономия «обнаружение против генерации» актуальна, но почти полное отсутствие табличных данных вынуждает специалистов по финансовому ИИ самостоятельно адаптировать наработки из моделей компьютерного зрения.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.

Все о Data Science

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация