8 публикации маркиран с/със "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст

AD-LLM сравнява GPT-4o и Llama 3.1 8B в три роли за откриване на аномалии – zero-shot детектор, генератор на данни и съветник за избор на модел – върху пет NLP набора от данни; GPT-4o достига AUROC 0.93–0.99 при zero-shot, но изборът на модел, базиран на LLM, остава ненадежден, с преки последици за ИИ във финансовия одит.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти

τ-bench показва, че водещи LLM модели като Claude 3.5 Sonnet падат от pass@1 стойност 0,692 до pass@4 стойност 0,462 при задачи за обслужване на клиенти в търговията на дребно — рязък спад в последователността с преки последици за всеки агент с възможност за запис, опериращ върху Beancount главна книга.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти

ConvFinQA (EMNLP 2022) разширява FinQA в многократни диалози върху отчетите за приходите на S&P 500, установявайки, че най-добрият фино настроен модел постига 68,9% точност на изпълнение срещу 89,4% за човешки експерти — и спада до 52,4% при хибридни разговори с множество аспекти, където моделите трябва да пренасят числовия контекст през различни финансови теми.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Себесъгласуваността заменя „алчното“ декодиране на веригата от мисли с гласуване с мнозинство върху N извлечени пътища на разсъждение — повишавайки точността на GPT-3 върху GSM8K със 17,9 процентни пункта без допълнително обучение — и се прилага директно към многостъпкови финансови изчисления, където единичното декодиране на модела е ненадеждно.

Всичко за Analytics

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст

τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти

ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси