40 публикации маркиран с/със "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват

Систематичен обзор на методите за оценка на доверието и калибриране на LLM — подходи с "бяла кутия" чрез логити, SelfCheckGPT, базиран на последователност, и семантична ентропия — разкрива, че вербализираните резултати за доверие от GPT-4 достигат едва ~62,7% AUROC, което е малко над случайността, с преки последици за внедряването на агенти, отчитащи несигурността, във финансите и счетоводството.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят

FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателство, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Калибриране по време на извеждане без необходимост от обучение изважда позиционното отклонение от теглата на вниманието на LLM, възстановявайки до 15 процентни пункта точност на RAG, когато извлечените документи са скрити в средата на контекста — и какво означава това за финансово-специфичните агентни конвейери.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG

FinDER оценява RAG върху 5 703 реални запитвания от анализатори на хедж фондове спрямо 10-K отчети на S&P 500; E5-Mistral постига само 25,95% пълнота на контекста, а наситените със съкращения запитвания струват 8,2 пункта прецизност — доказателство, че нормализирането на запитванията, а не по-добрите вграждания, е първото решение за финансовите AI конвейери.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.

Всичко за Data Science

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват

FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси