Mike Thrift
Marketing Manager
Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM
Бенчмарк BIRD (NeurIPS 2023) тестує LLM на 95 реальних базах даних — GPT-4 досягає лише 54,89% точності виконання з підказками щодо домену та 34,88% без них. Цей розрив у 20 пунктів безпосередньо визначає завдання, які має вирішити інтерфейс BQL природною мовою для Beancount.
Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP
Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.
GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити
GraphRAG від Microsoft створює граф сутностей, розділений за алгоритмом Лейдена, над корпусом тексту та попередньо обчислює резюме спільнот для відповідей на глобальні питання осмислення, з якими не справляється стандартний векторний RAG — проте аудит упередженості 2025 року показує, що заявлені показники успіху в 72–83% руйнуються після корекції артефактів позиції та довжини в оцінюванні «LLM як суддя».
FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.
InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі
InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.
StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів
StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.
Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення
Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.
M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?
M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.
AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань
AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.
ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM
ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.
Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд
Atlas (JMLR 2023) досягає точності 42,4% на Natural Questions лише з 64 навчальними прикладами — перевершуючи PaLM 540B на 3 пункти за допомогою 11 млрд параметрів — завдяки спільному попередньому навчанню щільного ретривера на базі Contriever та рідера T5 Fusion-in-Decoder. Аналіз охоплює межі точності пошуку, витрати на інфраструктуру індексу обсягом 587 ГБ та наслідки для систем запитань-відповідей (QA) для реєстрів Beancount.
Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання
Архітектура FiD від Ізакарда та Грейва незалежно кодує знайдені уривки, а потім об'єднує їх у декодері, перевершуючи RAG-Sequence на 4–11 пунктів у тестах NQ та TriviaQA. Цей допис розглядає дизайн та його наслідки для QA в реєстрах Beancount, де синтез багатьох записів транзакцій є нормою.