10 публикации маркиран с/със "Reconciliation"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

EnterpriseArena тества 11 големи езикови модела (LLM) чрез 132-месечна симулация на финансов директор, проследявайки процента на оцеляване, крайната оценка и степента на приключване на книгите. Само Qwen3.5-9B оцелява в 80% от опитите; GPT-5.4 и DeepSeek-V3.1 достигат 0%. Експертите хора постигат 100% оцеляване при 5 пъти по-висока крайна стойност. Критичното тясно място - LLM пропускат равнението на главната книга в 80% от случаите, действайки въз основа на остаряло финансово състояние.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP

FinMCP-Bench оценява шест LLM модела върху 613 задачи за използване на финансови инструменти в реалния свят, поддържани от 65 MCP сървъра — най-добрият модел постига 3,08% точно съвпадение при многократни задачи, разкривайки 20-кратен срив в производителността от сценарии с един инструмент към многократни такива.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Калибриране по време на извеждане без необходимост от обучение изважда позиционното отклонение от теглата на вниманието на LLM, възстановявайки до 15 процентни пункта точност на RAG, когато извлечените документи са скрити в средата на контекста — и какво означава това за финансово-специфичните агентни конвейери.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

Voyager, базиран на GPT-4 агент за Minecraft от NVIDIA и Caltech, демонстрира, че постоянната библиотека от кодови умения позволява истинско учене през целия живот без фина настройка — откривайки 3,3 пъти повече предмети от предишните водещи технологии. Този модел се пренася директно върху дългосрочната автоматизация на Beancount леджъри, въпреки че финансовата коректност изисква слоеве за подготовка (staging layers), които пясъчниците в игрите не изискват.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Многоагентни рамки за разговори за финансов ИИ

AutoGen (Wu et al., 2023) представя многоагентна рамка за разговори, при която агенти, базирани на LLM, си обменят съобщения за изпълнение на задачи; конфигурация с два агента повишава точността при MATH бенчмарка от 55% на 69%, а специализиран SafeGuard агент подобрява откриването на небезопасен код с до 35 F1 точки — констатации, пряко приложими за изграждането на безопасни, модулни тръбопроводи за автоматизация на Beancount.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

CodeAct (ICML 2024) заменя извикването на инструменти чрез JSON с изпълним Python код, подобрявайки процента на успеваемост на GPT-4 агентите с около 20 процентни пункта при задачи с множество инструменти и намалявайки стъпките на взаимодействие с 30% — с преки последици за изграждането на надеждни агенти за съгласуване в Beancount.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Синергия между разсъждение и действие при езиковите модели

ReAct (Yao et al., ICLR 2023) преплита разсъждения от тип „верига от мисли“ с действия чрез инструменти в една обща траектория, превъзхождайки чистия CoT при проверката на факти и обучението чрез имитация при задачи в среда с 34 процентни пункта. Този анализ обхваща видовете грешки в документа — разсейване, породено от търсенето, и натрупващи се грешки — и какво означават те за автономните агенти, които пишат обратно в Beancount леджъри.

Всичко за Reconciliation

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

AutoGen: Многоагентни рамки за разговори за финансов ИИ

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

ReAct: Синергия между разсъждение и действие при езиковите модели

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси