Bean Labs Research Log

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим

ReDAct по умолчанию запускает малую модель и переходит к дорогостоящей модели только тогда, когда перплексия на уровне токенов сигнализирует о неопределенности. Это позволяет сэкономить 64% затрат по сравнению с использованием только GPT-5.2, сохраняя или превосходя её точность — паттерн, напрямую применимый для агентов категоризации транзакций Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов

OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий

Бенчмарк AD-LLM оценивает GPT-4o и Llama 3.1 8B в трех ролях — детектора zero-shot, инструмента аугментации данных и советника по выбору модели — на пяти наборах данных NLP; GPT-4o достигает AUROC 0,93–0,99 в режиме zero-shot, однако выбор моделей на базе LLM остается ненадежным, что имеет прямое значение для ИИ в сфере финансового аудита.

LLMAIMachine LearningFraud DetectionData ScienceAnomaly DetectionBeancount

CausalTAD: каузальное упорядочивание столбцов для обнаружения аномалий в табличных данных с помощью LLM

CausalTAD улучшает обнаружение аномалий в табличных данных на базе LLM путем переупорядочивания столбцов таблицы с учетом каузальных зависимостей перед сериализацией, повышая средний показатель AUC-ROC с 0,803 до 0,834 по сравнению с AnoLLM на бенчмарках смешанного типа — что имеет прямое значение для обнаружения аномалий в структурированных данных бухгалтерских книг.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных

AnoLLM (ICLR 2025) переосмысляет обнаружение аномалий в таблицах как оценку плотности вероятности LLM — дообучение на нормальных строках и оценка по отрицательному логарифмическому правдоподобию. Метод превосходит классические подходы на смешанных наборах данных о мошенничестве, но не дает преимуществ на чисто числовых данных, что имеет реальное значение для поиска аномалий в записях Beancount.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.

Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом

Latest articles

Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим

OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов

Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе

FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем

Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ

Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий

CausalTAD: каузальное упорядочивание столбцов для обнаружения аномалий в табличных данных с помощью LLM

AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных

LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy

Начните работу с Beancount.io

С чего начать

Возможности

Сообщество

Юридическая информация