Перейти к контенту
Technology

Все о Technology

8 статей
Technology research and software engineering topics relevant to financial AI systems

WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов

WildToolBench (ICLR 2026) оценивает 57 LLM на 1024 задачах, основанных на реальном поведении пользователей — ни одна модель не превышает 15% точности сессии, при этом композиционная оркестрация, скрытые намерения и переходы между инструкциями являются тремя наиболее критичными режимами отказа.

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.

OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%

OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.

StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов

StructRAG (ICLR 2025) направляет каждый запрос к соответствующему типу структуры — таблице, графу, каталогу, алгоритму или фрагменту текста — перед этапом рассуждения. Метод набрал на 28 пунктов больше, чем GraphRAG в бенчмарке Loong, работая при этом в 22 раза быстрее, причем один только маршрутизатор, обученный с помощью DPO, обеспечил прирост точности в 15 пунктов.

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.

Self-RAG: адаптивный поиск и самокритика для LLM

Self-RAG (ICLR 2024 Oral) обучает языковую модель решать, когда обращаться к поиску, а затем оценивать собственные результаты с помощью четырех токенов рефлексии — достигая 55,8% на PopQA и 80,2 FactScore на биографиях, опережая ChatGPT в пяти бенчмарках. Анализ охватывает механизм, результаты абляции, ограничения воспроизводимости и последствия для финансовых ИИ-агентов, работающих с гроссбухами Beancount.

AgentBench: Оценка LLM как агентов — уроки надежности ИИ для финансов

AgentBench (Liu et al., ICLR 2024) тестирует 27 LLM в 8 интерактивных средах — GPT-4 набрала 4,01 балла против 0,96 у лучшей модели с открытым исходным кодом. Три основных типа сбоев (превышение лимита задач в 67,9% случаев в графах знаний, ошибки формата в 53,3% случаев в базах данных и недопустимые действия) напрямую соотносятся с рисками развертывания агента записи Beancount в реальном журнале.

MemGPT: управление виртуальным контекстом для LLM-агентов

MemGPT применяет подкачку виртуальной памяти в стиле ОС к LLM, используя трехуровневое хранилище — рабочую, оперативную и архивную память — для обеспечения агентов постоянным доступом к данным между сессиями; в бенчмарках многосессионных чатов MemGPT с GPT-4 достигает точности 92,5% против 32,1% у базовой модели с фиксированным контекстом.