Преминете към основното съдържание
Machine Learning

Всичко за Machine Learning

85 статии
Machine learning techniques for financial data analysis and automation

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.

Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват

Систематичен обзор на методите за оценка на доверието и калибриране на LLM — подходи с "бяла кутия" чрез логити, SelfCheckGPT, базиран на последователност, и семантична ентропия — разкрива, че вербализираните резултати за доверие от GPT-4 достигат едва ~62,7% AUROC, което е малко над случайността, с преки последици за внедряването на агенти, отчитащи несигурността, във финансите и счетоводството.

JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM

JSONSchemaBench тества 9 558 реални JSON схеми срещу шест рамки за ограничено декодиране и установява, че сложността на схемите води до срив на покритието от 86% при прости схеми до 3% при сложни такива, като XGrammar мълчаливо генерира 38 несъответстващи изхода, а нито една рамка не покрива всички 45 категории функции на JSON Schema.

FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP

FinMCP-Bench оценява шест LLM модела върху 613 задачи за използване на финансови инструменти в реалния свят, поддържани от 65 MCP сървъра — най-добрият модел постига 3,08% точно съвпадение при многократни задачи, разкривайки 20-кратен срив в производителността от сценарии с един инструмент към многократни такива.

FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи

FinTrace тества 13 големи езикови модела (LLM) върху 800 експертно анотирани траектории на финансови задачи по 9 метрики, установявайки, че водещите модели постигат силен подбор на инструменти (F1 ~0.9), но получават само 3.23/5 за използване на информация — етапът, в който агентите разсъждават върху върнатите от инструментите резултати.

FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят

FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателство, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.

Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни

Критичен прочит на обзора на Сю и Динг за NAACL 2025 относно откриването на аномалии и OOD чрез LLM: таксономията „откриване срещу генериране“ е устойчива, но почти пълната липса на табличен обхват означава, че финансовите AI специалисти трябва сами да синтезират прозрения от визуални модели.

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Калибриране по време на извеждане без необходимост от обучение изважда позиционното отклонение от теглата на вниманието на LLM, възстановявайки до 15 процентни пункта точност на RAG, когато извлечените документи са скрити в средата на контекста — и какво означава това за финансово-специфичните агентни конвейери.