Перейти до основного вмісту

Bean Labs Research Log

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.

Latest articles

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.

M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?

M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд

Atlas (JMLR 2023) досягає точності 42,4% на Natural Questions лише з 64 навчальними прикладами — перевершуючи PaLM 540B на 3 пункти за допомогою 11 млрд параметрів — завдяки спільному попередньому навчанню щільного ретривера на базі Contriever та рідера T5 Fusion-in-Decoder. Аналіз охоплює межі точності пошуку, витрати на інфраструктуру індексу обсягом 587 ГБ та наслідки для систем запитань-відповідей (QA) для реєстрів Beancount.

Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання

Архітектура FiD від Ізакарда та Грейва незалежно кодує знайдені уривки, а потім об'єднує їх у декодері, перевершуючи RAG-Sequence на 4–11 пунктів у тестах NQ та TriviaQA. Цей допис розглядає дизайн та його наслідки для QA в реєстрах Beancount, де синтез багатьох записів транзакцій є нормою.

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

Детальний аналіз статті Ду та ін. про дебати між мультиагентними системами на ICML 2024, де повідомляється про приріст точності в арифметиці на 14,8 пункту, разом із спростуваннями 2025 року, які показують, що поодинокі агенти з однаковим бюджетом обчислень не поступаються дебатам, а також аналіз того, чому «колективна ілюзія» (65% невдач у дебатах) створює особливі ризики для фіксації записів у бухгалтерській книзі за допомогою ШІ.