Преминете към основното съдържание
Technology

Всичко за Technology

8 статии
Technology research and software engineering topics relevant to financial AI systems

WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят

WildToolBench (ICLR 2026) оценява 57 големи езикови модела (LLM) върху 1024 задачи, извлечени от реално потребителско поведение — нито един модел не надвишава 15% точност на сесиите, като композиционната оркестрация, скритите намерения и преходите в инструкциите са трите най-отчетливи типа грешки.

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.

OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%

OSWorld (NeurIPS 2024) сравнява мултимодални AI агенти в 369 реални задачи за десктоп в Ubuntu, Windows и macOS — установявайки разлика от 60 процентни пункта между най-добрия модел (12,24%) и представянето на хората (72,36%), като 75% от неуспехите се дължат на грешки във визуомоторното заземяване, а не на грешки в логическото мислене.

StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки

StructRAG (ICLR 2025) насочва всяка заявка към подходящ за задачата тип структура — таблица, граф, каталог, алгоритъм или сегмент (chunk) — преди да премине към разсъждения, постигайки с 28 точки по-висок резултат от GraphRAG в бенчмарка Loong, като същевременно работи 22 пъти по-бързо, като само маршрутизаторът, обучен с DPO, допринася за 15 точки ръст в точността.

Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене

Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.

Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)

Self-RAG (ICLR 2024 Oral) обучава езиков модел да решава кога да извлича информация и след това да оценява собствените си резултати чрез четири токена за рефлексия — постигайки 55,8% на PopQA и 80,2 FactScore при биографии, като превъзхожда ChatGPT в пет бенчмарка. Анализът обхваща механизма, резултатите от аблацията, лимитите на възпроизводимост и последиците за финансови AI агенти върху Beancount регистри.

AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите

AgentBench (Liu et al., ICLR 2024) оценява 27 LLM в 8 интерактивни среди — GPT-4 постигна общ резултат от 4.01 срещу 0.96 за най-добрия модел с отворен код. Трите доминиращи режима на отказ (превишаване на лимита на задачите при 67.9% от отказите в графика на знанието, грешки във формата при 53.3% от отказите в бази данни и невалидни действия) се съпоставят директно с рисковете при внедряване на Beancount агент за запис върху реална главна книга.

MemGPT: Управление на виртуален контекст за LLM агенти

MemGPT прилага виртуално пейджиране на паметта в стил операционна система към LLM, използвайки тристепенно съхранение — работна памет, памет за припомняне и архивно хранилище — за да осигури на агентите постоянно припомняне между сесиите; при бенчмаркове за многосесийни чатове, MemGPT с GPT-4 постига 92,5% точност срещу 32,1% базова линия с фиксиран контекст.