Mike Thrift

Marketing Manager

June 6, 2026·mike

Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM

Бенчмарк BIRD (NeurIPS 2023) тестує LLM на 95 реальних базах даних — GPT-4 досягає лише 54,89% точності виконання з підказками щодо домену та 34,88% без них. Цей розрив у 20 пунктів безпосередньо визначає завдання, які має вирішити інтерфейс BQL природною мовою для Beancount.

beancount

llm

June 5, 2026·mike

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.

llm

security

June 4, 2026·mike

GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити

GraphRAG від Microsoft створює граф сутностей, розділений за алгоритмом Лейдена, над корпусом тексту та попередньо обчислює резюме спільнот для відповідей на глобальні питання осмислення, з якими не справляється стандартний векторний RAG — проте аудит упередженості 2025 року показує, що заявлені показники успіху в 72–83% руйнуються після корекції артефактів позиції та довжини в оцінюванні «LLM як суддя».

llm

machine-learning

June 3, 2026·mike

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.

llm

financial-reporting

June 2, 2026·mike

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.

llm

machine-learning

May 31, 2026·mike

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?

M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.

llm

machine-learning

May 29, 2026·mike

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.

llm

security

May 28, 2026·mike

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

llm

machine-learning

May 27, 2026·mike

Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд

Atlas (JMLR 2023) досягає точності 42,4% на Natural Questions лише з 64 навчальними прикладами — перевершуючи PaLM 540B на 3 пункти за допомогою 11 млрд параметрів — завдяки спільному попередньому навчанню щільного ретривера на базі Contriever та рідера T5 Fusion-in-Decoder. Аналіз охоплює межі точності пошуку, витрати на інфраструктуру індексу обсягом 587 ГБ та наслідки для систем запитань-відповідей (QA) для реєстрів Beancount.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання

Архітектура FiD від Ізакарда та Грейва незалежно кодує знайдені уривки, а потім об'єднує їх у декодері, перевершуючи RAG-Sequence на 4–11 пунктів у тестах NQ та TriviaQA. Цей допис розглядає дизайн та його наслідки для QA в реєстрах Beancount, де синтез багатьох записів транзакцій є нормою.

machine-learning

llm

Показано 37–48 з 87 записів

Попередня4 / 8Наступна