Mike Thrift
Marketing Manager
Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL
Бенчмарк BIRD (NeurIPS 2023) тестирует LLM на 95 реальных базах данных — GPT-4 достигает точности выполнения лишь 54,89% с подсказками по домену и 34,88% без них. Этот 20-процентный разрыв напрямую определяет задачи, которые должен решать интерфейс BQL на естественном языке для Beancount.
Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP
Исследователи из CMU и Университета штата Северная Каролина предлагают использовать системно-теоретический анализ процессов (STPA) и расширенный возможностями протокол Model Context Protocol для вывода формальных спецификаций безопасности использования инструментов LLM-агентами, с верификацией на базе Alloy, демонстрирующей отсутствие небезопасных потоков в кейсе планирования календаря.
GraphRAG: от локального к глобальному суммаризированию по запросам
Microsoft GraphRAG строит граф сущностей с использованием метода Лейдена на основе текстового корпуса и предварительно вычисляет сводки сообществ для ответов на глобальные вопросы, с которыми не справляется стандартный векторный RAG. Однако аудит предвзятости 2025 года показывает, что показатели побед в 72–83% падают после корректировки артефактов позиции и длины в оценке «LLM-как-судья».
FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.
InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле
InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.
StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов
StructRAG (ICLR 2025) направляет каждый запрос к соответствующему типу структуры — таблице, графу, каталогу, алгоритму или фрагменту текста — перед этапом рассуждения. Метод набрал на 28 пунктов больше, чем GraphRAG в бенчмарке Loong, работая при этом в 22 раза быстрее, причем один только маршрутизатор, обученный с помощью DPO, обеспечил прирост точности в 15 пунктов.
Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления
Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.
M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?
M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.
AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах
AGrail (ACL 2025) представляет кооперативную систему защиты из двух LLM, которая адаптирует проверки безопасности во время вывода с помощью адаптации во время теста (TTA), достигая 0% успеха атак через промпт-инъекции и сохраняя 95,6% легитимных действий в Safe-OS — в то время как GuardAgent и LLaMA-Guard блокируют до 49,2% нормальных действий.
ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов
ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.
Atlas: совместное преобучение ретривера и ридера превосходит LLM с 540 млрд параметров, используя лишь 11 млрд
Atlas (JMLR 2023) достигает точности 42,4% на Natural Questions всего с 64 обучающими примерами — превосходя PaLM 540B на 3 пункта, используя 11 млрд параметров — за счет совместного преобучения плотного ретривера на базе Contriever с ридером T5 Fusion-in-Decoder. Анализ охватывает пределы точности поиска, инфраструктурные затраты на индекс объемом 587 ГБ и значение для QA-систем бухгалтерских журналов Beancount.
Fusion-in-Decoder: как поиск по нескольким отрывкам улучшает генеративные вопросно-ответные системы
Архитектура FiD от Izacard и Grave независимо кодирует найденные отрывки, а затем объединяет их в декодере, превосходя RAG-Sequence на 4–11 пунктов в тестах NQ и TriviaQA. В этом посте рассматривается архитектура и её значение для QA по гроссбухам Beancount, где синтез данных из множества записей транзакций является нормой.