Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Все авторы

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода
·mike

GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода

GuardAgent (ICML 2025) размещает отдельного LLM-агента между целевым агентом и его средой, проверяя каждое предложенное действие путем генерации и выполнения кода на Python — достигая точности соблюдения политик в 98,7% при сохранении 100% завершаемости задач, по сравнению с 81% точности и 29–71% отказов при использовании правил безопасности, встроенных в промпт.

ai
llm
automation
security
+3
Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение
·mike

Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение

Подробный разбор статьи Ду и др. на ICML 2024 о мультиагентных дебатах, в которой сообщается о росте точности в арифметике на 14,8 пункта, наряду с опровержениями 2025 года, показывающими сопоставимые результаты одиночных агентов при равном бюджете, а также анализ того, почему коллективное заблуждение (65% неудач дебатов) создает специфические риски для коммитов в книгу учета с помощью ИИ.

ai
llm
machine-learning
automation
+2
LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах
·mike

LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах

В статье NeurIPS 2024 Spotlight исследуются три метода прогнозирования на базе LLM — OneFitsAll, Time-LLM и CALF. Исследование показало, что удаление языковой модели улучшает точность в большинстве случаев и ускоряет обучение до 1383 раз. Для финансовых приложений, таких как прогнозирование баланса Beancount, легкие специализированные модели стабильно превосходят адаптированные LLM.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLM для обнаружения мошенничества в бухгалтерском учете с двойной записью
·mike

AuditCopilot: LLM для обнаружения мошенничества в бухгалтерском учете с двойной записью

AuditCopilot применяет LLM с открытым исходным кодом (Mistral-8B, Gemma, Llama-3.1) для обнаружения мошенничества в корпоративных журнальных проводках, сокращая количество ложноположительных результатов с 942 до 12. Однако абляционное исследование показывает, что LLM функционирует в первую очередь как уровень синтеза поверх оценок Isolation Forest, а не как независимый детектор аномалий.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом
·mike

TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом

TAT-LLM выполняет тонкую настройку LLaMA 2 7B с помощью LoRA на бенчмарках QA для финансовых таблиц и текстов, достигая 64,60% EM на FinQA и превосходя GPT-4 (63,91%). Это достигается путем декомпозиции рассуждений на детерминированные этапы «Извлечение-Рассуждение-Выполнение», что устраняет арифметические ошибки.

llm
ai
machine-learning
finance
+3
Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM
·mike

Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM

Эмпирическое сравнение RAG и неконтролируемого дообучения на моделях LLM с 7 млрд параметров показывает, что RAG достигает точности 0,875+ на фактах после даты отсечки обучения, в то время как дообучение останавливается на уровне 0,504. Это имеет прямое значение для проектирования агентов Beancount и любых систем, требующих частого обновления знаний.

ai
llm
machine-learning
data-science
+3
IRCoT: чередование поиска с цепочкой рассуждений для многоэтапных ответов на вопросы
·mike

IRCoT: чередование поиска с цепочкой рассуждений для многоэтапных ответов на вопросы

IRCoT чередует поиск BM25 с каждым этапом цикла рассуждений «цепочка мыслей», достигая +11,3 к полноте поиска и +7,1 к F1 на HotpotQA по сравнению с одноэтапным RAG — и показывает, что модель 3B может превзойти GPT-3 175B при правильной стратегии поиска.

ai
llm
machine-learning
automation
+3
FLARE: Активная генерация с расширенным поиском
·mike

FLARE: Активная генерация с расширенным поиском

FLARE (EMNLP 2023) улучшает стандартный RAG, инициируя поиск в середине процесса генерации на основе порогов вероятности токенов. Он достигает 51,0 EM на 2WikiMultihopQA против 39,4 при однократном поиске, однако ошибки калибровки в моделях, настроенных на следование инструкциям, ограничивают его надежность для финансовых агентов.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Генерация с расширенным поиском для задач NLP с интенсивным использованием знаний
·mike

Генерация с расширенным поиском для задач NLP с интенсивным использованием знаний

Статья Льюиса и др. на NeurIPS 2020 представила гибридную архитектуру RAG — генератор BART-large в паре с ретривером на базе индекса FAISS по 21 миллиону отрывков из Википедии. Она достигла 44,5 EM на Natural Questions и заложила основу разделения на параметрическую и непараметрическую память, которая сегодня лежит в основе большинства производственных систем ИИ. В этом обзоре рассматриваются компромиссы между RAG-Sequence и RAG-Token, режим отказа в виде коллапса поиска и то, что значат устаревшие индексы для финансового ИИ, построенного на журналах Beancount, работающих только на добавление.

ai
machine-learning
llm
data-science
+2
MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах
·mike

MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах

MultiHiertt (ACL 2022) представляет 10 440 пар вопросов и ответов из реальных финансовых отчетов, содержащих в среднем 3,89 иерархических таблиц; современные модели показывают результат 38% F1 против 87% у людей, со штрафом в 15 пунктов для вопросов по нескольким таблицам — это количественно оценивает разрыв в поиске данных, который должен преодолеть ИИ в финансах.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми
·mike

ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми

ConvFinQA (EMNLP 2022) расширяет FinQA до многоходовых диалогов по отчетам о доходах S&P 500, обнаружив, что лучшая дообученная модель достигает точности выполнения 68,9% против 89,4% у экспертов-людей — и падает до 52,4% в гибридных многоаспектных диалогах, где модели должны переносить числовой контекст между различными финансовыми темами.

ai
llm
machine-learning
finance
+3
TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах
·mike

TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах

TAT-QA — это бенчмарк из 16 552 вопросов по гибридным контекстам финансовых отчетов (таблица + текст), который показал, что обоснование доказательств (grounding), а не арифметика, является основным узким местом в финансовом ИИ; к 2024 году дообученные LLM на 7 млрд параметров достигли 83% F1, сократив большую часть разрыва по сравнению с человеческим порогом в 91%.

ai
machine-learning
llm
finance
+2
Показано 49–60 из 87 записей