Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?

M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд

Atlas (JMLR 2023) досягає точності 42,4% на Natural Questions лише з 64 навчальними прикладами — перевершуючи PaLM 540B на 3 пункти за допомогою 11 млрд параметрів — завдяки спільному попередньому навчанню щільного ретривера на базі Contriever та рідера T5 Fusion-in-Decoder. Аналіз охоплює межі точності пошуку, витрати на інфраструктуру індексу обсягом 587 ГБ та наслідки для систем запитань-відповідей (QA) для реєстрів Beancount.

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання

Архітектура FiD від Ізакарда та Грейва незалежно кодує знайдені уривки, а потім об'єднує їх у декодері, перевершуючи RAG-Sequence на 4–11 пунктів у тестах NQ та TriviaQA. Цей допис розглядає дизайн та його наслідки для QA в реєстрах Beancount, де синтез багатьох записів транзакцій є нормою.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.

AILLMMachine LearningAutomationBeancountTransaction Validation

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

Детальний аналіз статті Ду та ін. про дебати між мультиагентними системами на ICML 2024, де повідомляється про приріст точності в арифметиці на 14,8 пункту, разом із спростуваннями 2025 року, які показують, що поодинокі агенти з однаковим бюджетом обчислень не поступаються дебатам, а також аналіз того, чому «колективна ілюзія» (65% невдач у дебатах) створює особливі ризики для фіксації записів у бухгалтерській книзі за допомогою ШІ.

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

Latest articles

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд

Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання

GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація