Mike Thrift
Marketing Manager
OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов
OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.
Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе
Fin-RATE тестирует 17 LLM на 7 500 парах вопросов и ответов, отобранных экспертами из 2 472 отчетов SEC. Исследование выявило падение точности на 18,60% при лонгитюдном отслеживании и снижение на 54 пункта для специализированной финансовой модели Fin-R1 в кросс-субъектных задачах. Основным узким местом оказался конвейер поиска данных (retrieval), а не базовая модель.
FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем
FinDER оценивает RAG на 5 703 реальных запросах аналитиков хедж-фондов к отчетам 10-K компаний S&P 500; E5-Mistral достигает лишь 25,95% полноты контекста, а запросы с обилием аббревиатур снижают точность на 8,2 пункта — доказательство того, что нормализация запросов, а не улучшение эмбеддингов, является первоочередной задачей для финансовых AI-конвейеров.
Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ
В статье TACL 2024 года Лю и др. показывают, что LLM работают на 20 пунктов хуже с информацией, скрытой в середине длинного контекста — U-образная деградация затрагивает все протестированные модели, включая Claude-1.3-100K — с конкретными выводами о том, как пайплайны RAG должны упорядочивать извлеченные фрагменты в финансовых и бухгалтерских приложениях.
Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий
Бенчмарк AD-LLM оценивает GPT-4o и Llama 3.1 8B в трех ролях — детектора zero-shot, инструмента аугментации данных и советника по выбору модели — на пяти наборах данных NLP; GPT-4o достигает AUROC 0,93–0,99 в режиме zero-shot, однако выбор моделей на базе LLM остается ненадежным, что имеет прямое значение для ИИ в сфере финансового аудита.
CausalTAD: каузальное упорядочивание столбцов для обнаружения аномалий в табличных данных с помощью LLM
CausalTAD улучшает обнаружение аномалий в табличных данных на базе LLM путем переупорядочивания столбцов таблицы с учетом каузальных зависимостей перед сериализацией, повышая средний показатель AUC-ROC с 0,803 до 0,834 по сравнению с AnoLLM на бенчмарках смешанного типа — что имеет прямое значение для обнаружения аномалий в структурированных данных бухгалтерских книг.
AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных
AnoLLM (ICLR 2025) переосмысляет обнаружение аномалий в таблицах как оценку плотности вероятности LLM — дообучение на нормальных строках и оценка по отрицательному логарифмическому правдоподобию. Метод превосходит классические подходы на смешанных наборах данных о мошенничестве, но не дает преимуществ на чисто числовых данных, что имеет реальное значение для поиска аномалий в записях Beancount.
LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy
Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.
TableMaster: адаптивное рассуждение для понимания таблиц с помощью LLM
TableMaster — это конвейер, основанный исключительно на промптах, который достигает 78,13% на WikiTQ с GPT-4o-mini — на 13 пунктов выше, чем Chain-of-Table — благодаря сочетанию извлечения таблицы фокуса, семантической вербализации и адаптивного переключения между текстовым и символьным рассуждением. Вот что эта архитектура значит для ИИ-агентов, работающих с финансовыми гроссбухами, такими как Beancount.
Zero-Shot обнаружение аномалий с помощью LLM: Как GPT-4 справляется с табличными данными
GPT-4 достигает среднего значения AUROC 74,1 на бенчмарке ODDS без дообучения — почти на уровне классического базового алгоритма ECOD (75,5) — но терпит неудачу на многомерных аномалиях и датасетах с высокой дисперсией; критический обзор zero-shot обнаружения аномалий с помощью LLM и его значение для автоматизированного аудита гроссбухов Beancount.
DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC
DocFinQA заменяет отобранные отрывки FinQA объемом 700 слов полными отчетами SEC объемом 123 000 слов, что увеличивает контекст в 175 раз и почти вдвое снижает точность GPT-4 на длинных документах. Пайплайны поиска не могут найти нужный фрагмент в 45% случаев при HR@3, и модели с длинным контекстом не являются полноценной заменой.
TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах
TheAgentCompany тестирует 175 реальных рабочих задач в симулированной интрасети с GitLab, OwnCloud и RocketChat. Лучшая модель (Gemini-2.5-Pro) выполняет лишь 30% задач по цене 4 доллара за каждую, что доказывает: автономные агенты все еще далеки от пригодности для рабочих процессов в бухгалтерии и финансах.