Преминете към основното съдържание
Automation

Всичко за Automation

57 статии
Automation techniques and tools for financial data processing workflows

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

EnterpriseArena тества 11 големи езикови модела (LLM) чрез 132-месечна симулация на финансов директор, проследявайки процента на оцеляване, крайната оценка и степента на приключване на книгите. Само Qwen3.5-9B оцелява в 80% от опитите; GPT-5.4 и DeepSeek-V3.1 достигат 0%. Експертите хора постигат 100% оцеляване при 5 пъти по-висока крайна стойност. Критичното тясно място - LLM пропускат равнението на главната книга в 80% от случаите, действайки въз основа на остаряло финансово състояние.

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.

JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM

JSONSchemaBench тества 9 558 реални JSON схеми срещу шест рамки за ограничено декодиране и установява, че сложността на схемите води до срив на покритието от 86% при прости схеми до 3% при сложни такива, като XGrammar мълчаливо генерира 38 несъответстващи изхода, а нито една рамка не покрива всички 45 категории функции на JSON Schema.

FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP

FinMCP-Bench оценява шест LLM модела върху 613 задачи за използване на финансови инструменти в реалния свят, поддържани от 65 MCP сървъра — най-добрият модел постига 3,08% точно съвпадение при многократни задачи, разкривайки 20-кратен срив в производителността от сценарии с един инструмент към многократни такива.

FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи

FinTrace тества 13 големи езикови модела (LLM) върху 800 експертно анотирани траектории на финансови задачи по 9 метрики, установявайки, че водещите модели постигат силен подбор на инструменти (F1 ~0.9), но получават само 3.23/5 за използване на информация — етапът, в който агентите разсъждават върху върнатите от инструментите резултати.

FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят

FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.

OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера

OmniEval (EMNLP 2025) сравнява RAG системи чрез 5 вида задачи × 16 финансови теми, използвайки 11,4 хиляди автоматично генерирани тестови случая. Най-добрите системи достигат едва 36% числова точност — конкретно доказателство, че RAG конвейерите се нуждаят от слоеве за валидация, преди да пишат в структурирани финансови книги.

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Калибриране по време на извеждане без необходимост от обучение изважда позиционното отклонение от теглата на вниманието на LLM, възстановявайки до 15 процентни пункта точност на RAG, когато извлечените документи са скрити в средата на контекста — и какво означава това за финансово-специфичните агентни конвейери.

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.

OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите

OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.