2026
- 15 апреля - FinBen: Бенчмаркинг LLM в 36 финансовых задачах — последствия для ИИ в сфере бухгалтерского учета
- 16 апреля - Toolformer: самообучающееся использование инструментов и его ограничения для ИИ в сфере финансов
- 17 апреля - ReAct: Синергия рассуждения и действия в языковых моделях
- 18 апреля - Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности
- 19 апреля - PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах
- 20 апреля - Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах
- 21 апреля - Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта
- 22 апреля - Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ
- 23 апреля - PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики
- 24 апреля - Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений
- 25 апреля - Reflexion: языковые агенты, которые учатся на ошибках без переобучения
- 26 апреля - CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов
- 27 апреля - Tree of Thoughts: осознанное решение задач с помощью поиска через LLM
- 28 апреля - LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах
- 29 апреля - CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее
- 30 апреля - SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?
- 1 мая - SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО
- 2 мая - MemGPT: управление виртуальным контекстом для LLM-агентов
- 3 мая - Gorilla: Как обучение с учетом поиска (RAT) снижает уровень галлюцинаций LLM API с 78% до 11%
- 4 мая - AutoGen: Фреймворки многоагентного диалога для ИИ в финансах
- 5 мая - BloombergGPT и пределы специализированных LLM в сфере финансов
- 6 мая - AgentBench: Оценка LLM как агентов — уроки надежности ИИ для финансов
- 7 мая - HippoRAG: Долговременная память для LLM, вдохновленная нейробиологией
- 8 мая - Voyager: Библиотеки навыков как основа для непрерывного обучения ИИ-агентов
- 9 мая - Self-RAG: адаптивный поиск и самокритика для LLM
- 10 мая - LATS: Поиск по дереву языковых агентов — рассуждение, действие и планирование в единой структуре
- 11 мая - DSPy: замена хрупкого промпт-инжиниринга скомпилированными конвейерами LLM
- 12 мая - FinanceBench: почему RAG на векторных хранилищах не справляется с реальными финансовыми документами
- 13 мая - FinQA: бен чмарк для измерения численного мышления ИИ в финансовых отчетах
- 14 мая - TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах
- 15 мая - ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми
- 16 мая - MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах
- 17 мая - Генерация с расширенным поиском для задач NLP с интенсивным использованием знаний
- 18 мая - FLARE: Активная генерация с расширенным поиском
- 19 мая - IRCoT: чередование поиска с цепочкой рассуждений для многоэтапных ответов на вопросы
- 20 мая - Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM
- 21 мая - TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом
- 22 мая - AuditCopilot: LLM для обнаружения мошенничества в бухгалтерском учете с двойной записью
- 23 мая - LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах
- 24 мая - Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение
- 25 мая - GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода
- 26 мая - Fusion-in-Decoder: как поиск по нескольким отрывкам улучшает генеративные вопросно-ответные системы
- 27 мая - Atlas: совместное преобучение ретривера и ридера превосходит LLM с 540 млрд параметров, используя лишь 11 млрд
- 28 мая - ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов
- 29 мая - AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах
- 30 мая - M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?
- 31 мая - Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления
- 1 июня - StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов
- 2 июня - InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле
- 3 июня - FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
- 4 июня - GraphRAG: от локального к глобальному суммаризированию по запросам
- 5 июня - Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP
- 6 июня - Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL
- 7 июня - DIN-SQL: декомпозированное обучение в контексте для преобразования текста в SQL
- 8 июня - MAC-SQL: Мультиагентное совместное преобразование текста в SQL
- 9 июня - TAPAS: слабо контролируемое табличное QA без SQL и что это значит для Beancount
- 10 июня - TableLlama: М ожет ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?
- 11 июня - Chain-of-Table: Эволюция таблиц в цепочке рассуждений LLM
- 12 июня - τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов
- 13 июня - WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний
- 14 июня - WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов
- 15 июня - OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%
- 16 июня - Бенчмарк GAIA: оценка реальных возможностей передовых ИИ-агентов
- 17 июня - WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах
- 18 июня - τ²-bench: Оценка стоимости двойного управления в разговорных ИИ-агентах
- 19 июня - TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах
- 20 июня - DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC
- 21 июня - Zero-Shot обнаружение аномалий с помощью LLM: Как GPT-4 справляется с табличными данными
- 22 июня - TableMaster: адаптивное рассуждение для понимания таблиц с помощью LLM
- 23 июня - LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy
- 24 июня - AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных
- 25 июня - CausalTAD: каузальное упорядочивание столбцов для обнаружения аномалий в табличных данных с помощью LLM
- 26 июня - Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий
- 27 июня - Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ
- 28 июня - FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем
- 29 июня - Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе
- 30 июня - OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов
- 1 июля - Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим
- 2 июля - Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом
- 3 июля - Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных
- 4 июля - OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере
- 5 июля - FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях
- 6 июля - FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач
- 7 июля - FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP
- 8 июля - JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM
- 9 июля - Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования
- 10 июля - WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов
- 11 июля - Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв
- 12 июля - FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере