89 публикации маркиран с/със "LLM"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

EnterpriseArena тества 11 големи езикови модела (LLM) чрез 132-месечна симулация на финансов директор, проследявайки процента на оцеляване, крайната оценка и степента на приключване на книгите. Само Qwen3.5-9B оцелява в 80% от опитите; GPT-5.4 и DeepSeek-V3.1 достигат 0%. Експертите хора постигат 100% оцеляване при 5 пъти по-висока крайна стойност. Критичното тясно място - LLM пропускат равнението на главната книга в 80% от случаите, действайки въз основа на остаряло финансово състояние.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват

Систематичен обзор на методите за оценка на доверието и калибриране на LLM — подходи с "бяла кутия" чрез логити, SelfCheckGPT, базиран на последователност, и семантична ентропия — разкрива, че вербализираните резултати за доверие от GPT-4 достигат едва ~62,7% AUROC, което е малко над случайността, с преки последици за внедряването на агенти, отчитащи несигурността, във финансите и счетоводството.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM

JSONSchemaBench тества 9 558 реални JSON схеми срещу шест рамки за ограничено декодиране и установява, че сложността на схемите води до срив на покритието от 86% при прости схеми до 3% при сложни такива, като XGrammar мълчаливо генерира 38 несъответстващи изхода, а нито една рамка не покрива всички 45 категории функции на JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP

FinMCP-Bench оценява шест LLM модела върху 613 задачи за използване на финансови инструменти в реалния свят, поддържани от 65 MCP сървъра — най-добрият модел постига 3,08% точно съвпадение при многократни задачи, разкривайки 20-кратен срив в производителността от сценарии с един инструмент към многократни такива.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи

FinTrace тества 13 големи езикови модела (LLM) върху 800 експертно анотирани траектории на финансови задачи по 9 метрики, установявайки, че водещите модели постигат силен подбор на инструменти (F1 ~0.9), но получават само 3.23/5 за използване на информация — етапът, в който агентите разсъждават върху върнатите от инструментите резултати.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят

FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателство, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.

Всичко за LLM

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват

JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM

FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP

FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи

FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси