Преминете към основното съдържание
Finance

Всичко за Finance

35 статии
Financial research, analysis, and domain knowledge for accounting AI

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.

Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват

Систематичен обзор на методите за оценка на доверието и калибриране на LLM — подходи с "бяла кутия" чрез логити, SelfCheckGPT, базиран на последователност, и семантична ентропия — разкрива, че вербализираните резултати за доверие от GPT-4 достигат едва ~62,7% AUROC, което е малко над случайността, с преки последици за внедряването на агенти, отчитащи несигурността, във финансите и счетоводството.

FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи

FinTrace тества 13 големи езикови модела (LLM) върху 800 експертно анотирани траектории на финансови задачи по 9 метрики, установявайки, че водещите модели постигат силен подбор на инструменти (F1 ~0.9), но получават само 3.23/5 за използване на информация — етапът, в който агентите разсъждават върху върнатите от инструментите резултати.

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателство, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.

FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG

FinDER оценява RAG върху 5 703 реални запитвания от анализатори на хедж фондове спрямо 10-K отчети на S&P 500; E5-Mistral постига само 25,95% пълнота на контекста, а наситените със съкращения запитвания струват 8,2 пункта прецизност — доказателство, че нормализирането на запитванията, а не по-добрите вграждания, е първото решение за финансовите AI конвейери.

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.

AnoLLM: Фина настройка на LLM за откриване на таблични аномалии във финансови данни

AnoLLM (ICLR 2025) преформулира откриването на таблични аномалии като оценка на плътността чрез LLM — фина настройка върху нормални редове и оценяване чрез отрицателна логаритмична вероятност (NLL). Той превъзхожда класическите методи при набори от данни за измами от смесен тип, но не предлага предимство при чисто числови данни, с реални последици за откриването на аномалии в записите на главната книга на Beancount.

DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети

DocFinQA заменя подбраните пасажи от 700 думи във FinQA с пълни SEC отчети от 123 000 думи, разкривайки 175-кратно увеличение на контекста, което почти наполовина намалява точността на GPT-4 при дълги документи. Пайплайните за извличане не успяват да изведат правилния сегмент в 45% от случаите при HR@3 — а моделите с дълъг контекст не са заместител.

TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи

TheAgentCompany тества 175 реални работни задачи в симулирана интранет среда с GitLab, OwnCloud и RocketChat. Най-добрият модел (Gemini-2.5-Pro) изпълнява само 30% от задачите на цена от $4 всяка, разкривайки, че автономните агенти все още са далеч от приложимост за работни процеси в счетоводството и финансите.

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.