10 постов с тегом "Reconciliation"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

FinRAGBench-V (EMNLP 2025) — это первый масштабный бенчмарк для мультимодального RAG с визуальными цитатами в финансах, охватывающий более 112 тыс. страниц документов и 1394 размеченных вручную пар вопросов и ответов. Лучшие модели достигают лишь 20–61% полноты цитирования на уровне блоков, а мультимодальный поиск превосходит текстовый почти на 50 процентных пунктов.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв

EnterpriseArena проводит 11 LLM через 132-месячную симуляцию финансового директора, отслеживая выживаемость, итоговую оценку и частоту закрытия отчетности. Только Qwen3.5-9B выживает в 80% запусков; показатели GPT-5.4 и DeepSeek-V3.1 составили 0%. Эксперты-люди достигают 100% выживаемости при итоговой стоимости в 5 раз выше. Критическое узкое место — LLM пропускают сверку реестров в 80% случаев, действуя на основе устаревшего финансового состояния.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

FinMCP-Bench оценивает шесть моделей LLM в 613 реальных задачах по использованию финансовых инструментов на базе 65 серверов MCP. Лучшая модель показала точность 3,08% в многоходовых задачах, выявляя 20-кратное падение производительности при переходе от одного инструмента к сложным сценариям.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Калибровка на этапе вывода, не требующая дообучения, вычитает позиционное смещение из весов внимания LLM, восстанавливая до 15 процентных пунктов точности RAG, когда извлеченные документы находятся в середине контекста — и что это значит для специализированных финансовых агентских конвейеров.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Библиотеки навыков как основа для непрерывного обучения ИИ-агентов

Voyager, агент для Minecraft на базе GPT-4 от NVIDIA и Caltech, демонстрирует, что постоянная библиотека навыков в виде кода обеспечивает подлинное непрерывное обучение без дообучения — находя в 3,3 раза больше предметов, чем предыдущие передовые решения. Эта модель напрямую применима к долгосрочной автоматизации учета в Beancount, хотя финансовая точность требует промежуточных уровней проверки, которые не нужны в игровых «песочницах».

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Фреймворки многоагентного диалога для ИИ в финансах

AutoGen (Wu et al., 2023) представляет собой фреймворк многоагентного диалога, где агенты на базе LLM обмениваются сообщениями для выполнения задач; система из двух агентов повышает точность бенчмарка MATH с 55% до 69%, а специализированный агент SafeGuard улучшает обнаружение небезопасного кода до 35 пунктов F1 — результаты, применимые для создания безопасных модульных конвейеров автоматизации Beancount.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее

CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных пунктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Синергия рассуждения и действия в языковых моделях

ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.

Все о Reconciliation

FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв

FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Voyager: Библиотеки навыков как основа для непрерывного обучения ИИ-агентов

AutoGen: Фреймворки многоагентного диалога для ИИ в финансах

CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

ReAct: Синергия рассуждения и действия в языковых моделях

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация