Перейти к контенту

Bean Labs Research Log

InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле

InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.

Latest articles

StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов

StructRAG (ICLR 2025) направляет каждый запрос к соответствующему типу структуры — таблице, графу, каталогу, алгоритму или фрагменту текста — перед этапом рассуждения. Метод набрал на 28 пунктов больше, чем GraphRAG в бенчмарке Loong, работая при этом в 22 раза быстрее, причем один только маршрутизатор, обученный с помощью DPO, обеспечил прирост точности в 15 пунктов.

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.

M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?

M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.

AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах

AGrail (ACL 2025) представляет кооперативную систему защиты из двух LLM, которая адаптирует проверки безопасности во время вывода с помощью адаптации во время теста (TTA), достигая 0% успеха атак через промпт-инъекции и сохраняя 95,6% легитимных действий в Safe-OS — в то время как GuardAgent и LLaMA-Guard блокируют до 49,2% нормальных действий.

ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов

ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.

Atlas: совместное преобучение ретривера и ридера превосходит LLM с 540 млрд параметров, используя лишь 11 млрд

Atlas (JMLR 2023) достигает точности 42,4% на Natural Questions всего с 64 обучающими примерами — превосходя PaLM 540B на 3 пункта, используя 11 млрд параметров — за счет совместного преобучения плотного ретривера на базе Contriever с ридером T5 Fusion-in-Decoder. Анализ охватывает пределы точности поиска, инфраструктурные затраты на индекс объемом 587 ГБ и значение для QA-систем бухгалтерских журналов Beancount.

Fusion-in-Decoder: как поиск по нескольким отрывкам улучшает генеративные вопросно-ответные системы

Архитектура FiD от Izacard и Grave независимо кодирует найденные отрывки, а затем объединяет их в декодере, превосходя RAG-Sequence на 4–11 пунктов в тестах NQ и TriviaQA. В этом посте рассматривается архитектура и её значение для QA по гроссбухам Beancount, где синтез данных из множества записей транзакций является нормой.

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

GuardAgent (ICML 2025) размещает отдельного LLM-агента между целевым агентом и его средой, проверяя каждое предложенное действие путем генерации и выполнения кода на Python — достигая точности соблюдения политик в 98,7% при сохранении 100% завершаемости задач, по сравнению с 81% точности и 29–71% отказов при использовании правил безопасности, встроенных в промпт.

Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение

Подробный разбор статьи Ду и др. на ICML 2024 о мультиагентных дебатах, в которой сообщается о росте точности в арифметике на 14,8 пункта, наряду с опровержениями 2025 года, показывающими сопоставимые результаты одиночных агентов при равном бюджете, а также анализ того, почему коллективное заблуждение (65% неудач дебатов) создает специфические риски для коммитов в книгу учета с помощью ИИ.