Преминете към основното съдържание

Bean Labs Research Log

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.

Latest articles

StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки

StructRAG (ICLR 2025) насочва всяка заявка към подходящ за задачата тип структура — таблица, граф, каталог, алгоритъм или сегмент (chunk) — преди да премине към разсъждения, постигайки с 28 точки по-висок резултат от GraphRAG в бенчмарка Loong, като същевременно работи 22 пъти по-бързо, като само маршрутизаторът, обучен с DPO, допринася за 15 точки ръст в точността.

Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене

Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.

M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?

M3MAD-Bench подлага на стрес-тест дебатите между множество агенти (Multi-Agent Debate) в 9 модела, 5 области и визуално-езикови среди, установявайки, че колективната заблуда причинява 65% от неуспехите, състезателният дебат намалява точността с до 12,8%, а самосъгласуваността обикновено съответства на точността на дебата при по-ниска цена на токените.

AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите

AGrail (ACL 2025) въвежда кооперативен защитен механизъм с два LLM модела, който адаптира проверките за безопасност по време на извеждане чрез адаптация по време на тест (TTA), постигайки 0% успех на атаки с вмъкване на подкани и 95,6% запазване на легитимни действия в Safe-OS — в сравнение с GuardAgent и LLaMA-Guard, които блокират до 49,2% от легитимните действия.

ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти

ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.

Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри

Atlas (JMLR 2023) постига 42,4% точност при Natural Questions само с 64 примера за обучение – побеждавайки PaLM 540B с 3 пункта, използвайки 11 милиарда параметри – чрез съвместно предварително обучение на гъст ретривър, базиран на Contriever, с T5 Fusion-in-Decoder рийдър. Анализът обхваща границите на точността на извличане, инфраструктурните разходи за 587GB индекс и последиците за системи за въпроси и отговори върху Beancount главни книги.

Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и отговори

Архитектурата FiD на Izacard и Grave кодира независимо извлечените пасажи, след което ги обединява в декодера, превъзхождайки RAG-Sequence с 4–11 пункта при NQ и TriviaQA. Тази публикация разглежда дизайна и неговото значение за QA при Beancount регистри, където синтезът на множество записи в трансакциите е норма.

GuardAgent: Детерминистично прилагане на безопасността за LLM агенти чрез изпълнение на код

GuardAgent (ICML 2025) поставя отделен LLM агент между целевия агент и неговата среда, като верифицира всяко предложено действие чрез генериране и изпълнение на Python код — постигайки 98,7% точност при прилагане на политиките, като същевременно запазва 100% изпълнение на задачите, в сравнение с 81% точност и 29–71% неуспех на задачите при вградени в инструкциите (prompt) правила за безопасност.

Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда

Подробен анализ на статията за дебат между мултиагентни системи на Du et al. от ICML 2024 — отчитаща 14,8 пункта ръст в точността при аритметика — заедно с опровержения от 2025 г., показващи, че единични агенти със същия бюджет достигат сходна производителност, и анализ защо колективната заблуда (65% от неуспехите при дебати) крие специфични рискове за автоматизирани записи в счетоводни книги.