8 постов с тегом "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Критический разбор обзора Сюй и Дина для NAACL 2025 об обнаружении аномалий и OOD на базе LLM. Таксономия «обнаружение против генерации» актуальна, но почти полное отсутствие табличных данных вынуждает специалистов по финансовому ИИ самостоятельно адаптировать наработки из моделей компьютерного зрения.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий

Бенчмарк AD-LLM оценивает GPT-4o и Llama 3.1 8B в трех ролях — детектора zero-shot, инструмента аугментации данных и советника по выбору модели — на пяти наборах данных NLP; GPT-4o достигает AUROC 0,93–0,99 в режиме zero-shot, однако выбор моделей на базе LLM остается ненадежным, что имеет прямое значение для ИИ в сфере финансового аудита.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов

τ-bench показывает, что топовые LLM, такие как Claude 3.5 Sonnet, демонстрируют падение показателя pass@1 с 0,692 до 0,462 для pass@4 в задачах обслуживания розничных клиентов — «обрыв согласованности», имеющий прямое значение для любого агента с правом записи в журнале Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми

ConvFinQA (EMNLP 2022) расширяет FinQA до многоходовых диалогов по отчетам о доходах S&P 500, обнаружив, что лучшая дообученная модель достигает точности выполнения 68,9% против 89,4% у экспертов-людей — и падает до 52,4% в гибридных многоаспектных диалогах, где модели должны переносить числовой контекст между различными финансовыми темами.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: почему RAG на векторных хранилищах не справляется с реальными финансовыми документами

FinanceBench оценивает 16 конфигураций ИИ на 10 231 вопросе из реальных отчетов SEC; RAG с общим векторным хранилищем дает правильные ответы лишь в 19% случаев, а GPT-4-Turbo даже с «оракулом» достигает точности только в 85%. Это доказывает, что численные рассуждения, а не поиск данных, являются основным ограничением для корпоративного финансового ИИ.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений

Self-consistency заменяет жадное декодирование цепочки рассуждений голосованием большинством по N сэмплированным путям рассуждения — повышая точность GPT-3 на GSM8K на 17,9 процентных пункта без дообучения — и напрямую применяется к многоэтапным финансовым расчетам, где однократный вывод LLM ненадежен.

Все о Analytics

Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий

τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов

ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми

FinanceBench: почему RAG на векторных хранилищах не справляется с реальными финансовыми документами

Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация