ReDAct по умолчанию запускает малую модель и переходит к дорогостоящей модели только тогда, когда перплексия на уровне токенов сигнализирует о неопределенности. Это позволяет сэкономить 64% затрат по сравнению с использованием только GPT-5.2, сохраняя или превосходя её точность — паттерн, напрямую применимый для агентов категоризации транзакций Beancount.
OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.
Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 о тчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.
FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.
В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.
Бенчмарк AD-LLM оценивает GPT-4o и Llama 3.1 8B в трех ролях — детектора zero-shot, инструмента аугментации данных и советника по выбору модели — на пяти наборах данных NLP; GPT-4o достигает AUROC 0,93–0,99 в режиме zero-shot, однако выбор моделей на базе LLM остается ненадежным, что имеет прямое значение для ИИ в сфере финансового аудита.
CausalTAD улучшает обнаружение аномалий в табличных данных на базе LLM путем переупорядочивания столбцов таблицы с учетом каузальных зависимостей перед сериализацией, повышая средний показатель AUC-ROC с 0,803 до 0,834 по сравнению с AnoLLM на бенчмарках смешанного типа — что имеет прямое значение для обнаружения аномалий в структурированных данных бухгалтерских книг.
AnoLLM (ICLR 2025) переосмысляет обнаружение аномалий в таблицах как оценку плотности вероятности LLM — дообучение на нормальных строках и оценка по отрицательному логарифмическому правдоподобию. Метод превосходит классические подходы на смешанных наборах данных о мошенничестве, но не дает преимуще ств на чисто числовых данных, что имеет реальное значение для поиска аномалий в записях Beancount.
Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.