Beancount.io LogoBeancount.io
Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM
·mike

Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM

Бенчмарк BIRD (NeurIPS 2023) тестує LLM на 95 реальних базах даних — GPT-4 досягає лише 54,89% точності виконання з підказками щодо домену та 34,88% без них. Цей розрив у 20 пунктів безпосередньо визначає завдання, які має вирішити інтерфейс BQL природною мовою для Beancount.

beancount
ai
llm
database
+3
Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP
·mike

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.

ai
llm
security
automation
+3
GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити
·mike

GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити

GraphRAG від Microsoft створює граф сутностей, розділений за алгоритмом Лейдена, над корпусом тексту та попередньо обчислює резюме спільнот для відповідей на глобальні питання осмислення, з якими не справляється стандартний векторний RAG — проте аудит упередженості 2025 року показує, що заявлені показники успіху в 72–83% руйнуються після корекції артефактів позиції та довжини в оцінюванні «LLM як суддя».

ai
llm
machine-learning
beancount
+3
FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
·mike

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі
·mike

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів
·mike

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.

ai
llm
machine-learning
beancount
+3
Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення
·mike

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?
·mike

M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?

M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.

ai
llm
machine-learning
automation
+3
AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань
·mike

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.

ai
llm
security
automation
+3
ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM
·mike

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

ai
llm
machine-learning
security
+4
Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд
·mike

Atlas: спільне попереднє навчання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд

Atlas (JMLR 2023) досягає точності 42,4% на Natural Questions лише з 64 навчальними прикладами — перевершуючи PaLM 540B на 3 пункти за допомогою 11 млрд параметрів — завдяки спільному попередньому навчанню щільного ретривера на базі Contriever та рідера T5 Fusion-in-Decoder. Аналіз охоплює межі точності пошуку, витрати на інфраструктуру індексу обсягом 587 ГБ та наслідки для систем запитань-відповідей (QA) для реєстрів Beancount.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання
·mike

Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання

Архітектура FiD від Ізакарда та Грейва незалежно кодує знайдені уривки, а потім об'єднує їх у декодері, перевершуючи RAG-Sequence на 4–11 пунктів у тестах NQ та TriviaQA. Цей допис розглядає дизайн та його наслідки для QA в реєстрах Beancount, де синтез багатьох записів транзакцій є нормою.

ai
machine-learning
llm
beancount
+2
Показано 37–48 з 87 записів