35 постов с тегом "Finance"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

Систематический обзор методов оценки и калибровки уверенности LLM — подходов «белого ящика» на основе логитов, SelfCheckGPT на основе согласованности и семантической энтропии — показывает, что показатели вербализованной уверенности GPT-4 достигают лишь ~62,7% AUROC, что едва превышает случайность. Это имеет прямые последствия для развертывания агентов, учитывающих неопределенность, в сфере финансов и бухгалтерского учета.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

FinTrace тестирует 13 LLM на 800 аннотированных экспертами траекториях финансовых задач по 9 метрикам, обнаружив, что передовые модели демонстрируют хороший выбор инструментов (F1 ~0.9), но набирают лишь 3.23/5 по использованию информации — этапу, на котором агенты анализируют результаты работы инструментов.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

OmniEval (EMNLP 2025) оценивает системы RAG по 5 типам задач и 16 финансовым темам, используя 11,4 тыс. автоматически сгенерированных тестовых случаев. Лучшие системы достигают лишь 36% точности в вычислениях — это конкретное доказательство того, что RAG-конвейеры нуждаются в слоях валидации перед записью в структурированные финансовые гроссбухи.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных

AnoLLM (ICLR 2025) переосмысляет обнаружение аномалий в таблицах как оценку плотности вероятности LLM — дообучение на нормальных строках и оценка по отрицательному логарифмическому правдоподобию. Метод превосходит классические подходы на смешанных наборах данных о мошенничестве, но не дает преимуществ на чисто числовых данных, что имеет реальное значение для поиска аномалий в записях Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC

DocFinQA заменяет отобранные отрывки FinQA объемом 700 слов полными отчетами SEC объемом 123 000 слов, что увеличивает контекст в 175 раз и почти вдвое снижает точность GPT-4 на длинных документах. Пайплайны поиска не могут найти нужный фрагмент в 45% случаев при HR@3, и модели с длинным контекстом не являются полноценной заменой.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах

TheAgentCompany тестирует 175 реальных рабочих задач в симулированной интрасети с GitLab, OwnCloud и RocketChat. Лучшая модель (Gemini-2.5-Pro) выполняет лишь 30% задач по цене 4 доллара за каждую, что доказывает: автономные агенты все еще далеки от пригодности для рабочих процессов в бухгалтерии и финансах.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле

InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.

Все о Finance

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования

FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач

OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных

DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC

TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах

InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация