Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Все авторы

Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL
·mike

Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL

Бенчмарк BIRD (NeurIPS 2023) тестирует LLM на 95 реальных базах данных — GPT-4 достигает точности выполнения лишь 54,89% с подсказками по домену и 34,88% без них. Этот 20-процентный разрыв напрямую определяет задачи, которые должен решать интерфейс BQL на естественном языке для Beancount.

beancount
ai
llm
database
+3
Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP
·mike

Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP

Исследователи из CMU и Университета штата Северная Каролина предлагают использовать системно-теоретический анализ процессов (STPA) и расширенный возможностями протокол Model Context Protocol для вывода формальных спецификаций безопасности использования инструментов LLM-агентами, с верификацией на базе Alloy, демонстрирующей отсутствие небезопасных потоков в кейсе планирования календаря.

ai
llm
security
automation
+3
GraphRAG: от локального к глобальному суммаризированию по запросам
·mike

GraphRAG: от локального к глобальному суммаризированию по запросам

Microsoft GraphRAG строит граф сущностей с использованием метода Лейдена на основе текстового корпуса и предварительно вычисляет сводки сообществ для ответов на глобальные вопросы, с которыми не справляется стандартный векторный RAG. Однако аудит предвзятости 2025 года показывает, что показатели побед в 72–83% падают после корректировки артефактов позиции и длины в оценке «LLM-как-судья».

ai
llm
machine-learning
beancount
+3
FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
·mike

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле
·mike

InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле

InvestorBench (ACL 2025) тестирует 13 базовых моделей LLM на исторических данных торговли акциями, криптовалютой и ETF, используя накопленную доходность и коэффициент Шарпа вместо точности ответов. Qwen2.5-72B лидирует в торговле акциями с доходностью 46,15%; модели, дообученные на финансовых данных, показали обратный эффект на акциях. Размер модели предсказывает производительность надежнее, чем специализированная настройка под домен.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов
·mike

StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов

StructRAG (ICLR 2025) направляет каждый запрос к соответствующему типу структуры — таблице, графу, каталогу, алгоритму или фрагменту текста — перед этапом рассуждения. Метод набрал на 28 пунктов больше, чем GraphRAG в бенчмарке Loong, работая при этом в 22 раза быстрее, причем один только маршрутизатор, обученный с помощью DPO, обеспечил прирост точности в 15 пунктов.

ai
llm
machine-learning
beancount
+3
Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления
·mike

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?
·mike

M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?

M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.

ai
llm
machine-learning
automation
+3
AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах
·mike

AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах

AGrail (ACL 2025) представляет кооперативную систему защиты из двух LLM, которая адаптирует проверки безопасности во время вывода с помощью адаптации во время теста (TTA), достигая 0% успеха атак через промпт-инъекции и сохраняя 95,6% легитимных действий в Safe-OS — в то время как GuardAgent и LLaMA-Guard блокируют до 49,2% нормальных действий.

ai
llm
security
automation
+3
ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов
·mike

ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов

ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.

ai
llm
machine-learning
security
+4
Atlas: совместное преобучение ретривера и ридера превосходит LLM с 540 млрд параметров, используя лишь 11 млрд
·mike

Atlas: совместное преобучение ретривера и ридера превосходит LLM с 540 млрд параметров, используя лишь 11 млрд

Atlas (JMLR 2023) достигает точности 42,4% на Natural Questions всего с 64 обучающими примерами — превосходя PaLM 540B на 3 пункта, используя 11 млрд параметров — за счет совместного преобучения плотного ретривера на базе Contriever с ридером T5 Fusion-in-Decoder. Анализ охватывает пределы точности поиска, инфраструктурные затраты на индекс объемом 587 ГБ и значение для QA-систем бухгалтерских журналов Beancount.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: как поиск по нескольким отрывкам улучшает генеративные вопросно-ответные системы
·mike

Fusion-in-Decoder: как поиск по нескольким отрывкам улучшает генеративные вопросно-ответные системы

Архитектура FiD от Izacard и Grave независимо кодирует найденные отрывки, а затем объединяет их в декодере, превосходя RAG-Sequence на 4–11 пунктов в тестах NQ и TriviaQA. В этом посте рассматривается архитектура и её значение для QA по гроссбухам Beancount, где синтез данных из множества записей транзакций является нормой.

ai
machine-learning
llm
beancount
+2
Показано 37–48 из 87 записей