Перейти к контенту

Beancount.io

Обучение

Справочный центр
Блог
Открытая Книга

Возможности

AI CFO
Привязка счетов
Умный импорт
Git для Beancount
Хостинг Fava
Приложение для Android
Приложение для iOS

English
中文
Български
Català
Deutsch
Español
فارسی
Français
日本語
한국어
Nederlands
Português
Русский
Slovenčina
Українська

Войти Начать работу

Архив

Архив записей блога

2026

15 апреля - FinBen: Бенчмаркинг LLM в 36 финансовых задачах — последствия для ИИ в сфере бухгалтерского учета
16 апреля - Toolformer: самообучающееся использование инструментов и его ограничения для ИИ в сфере финансов
17 апреля - ReAct: Синергия рассуждения и действия в языковых моделях
18 апреля - Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности
19 апреля - PHANTOM (NeurIPS 2025): Измерение обнаружения галлюцинаций LLM в финансовых документах
20 апреля - Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах
21 апреля - Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта
22 апреля - Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ
23 апреля - PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики
24 апреля - Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений
25 апреля - Reflexion: языковые агенты, которые учатся на ошибках без переобучения
26 апреля - CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов
27 апреля - Tree of Thoughts: осознанное решение задач с помощью поиска через LLM
28 апреля - LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах
29 апреля - CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее
30 апреля - SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?
1 мая - SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО
2 мая - MemGPT: управление виртуальным контекстом для LLM-агентов
3 мая - Gorilla: Как обучение с учетом поиска (RAT) снижает уровень галлюцинаций LLM API с 78% до 11%
4 мая - AutoGen: Фреймворки многоагентного диалога для ИИ в финансах
5 мая - BloombergGPT и пределы специализированных LLM в сфере финансов
6 мая - AgentBench: Оценка LLM как агентов — уроки надежности ИИ для финансов
7 мая - HippoRAG: Долговременная память для LLM, вдохновленная нейробиологией
8 мая - Voyager: Библиотеки навыков как основа для непрерывного обучения ИИ-агентов
9 мая - Self-RAG: адаптивный поиск и самокритика для LLM
10 мая - LATS: Поиск по дереву языковых агентов — рассуждение, действие и планирование в единой структуре
11 мая - DSPy: замена хрупкого промпт-инжиниринга скомпилированными конвейерами LLM
12 мая - FinanceBench: почему RAG на векторных хранилищах не справляется с реальными финансовыми документами
13 мая - FinQA: бенчмарк для измерения численного мышления ИИ в финансовых отчетах
14 мая - TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах
15 мая - ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми
16 мая - MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах
17 мая - Генерация с расширенным поиском для задач NLP с интенсивным использованием знаний
18 мая - FLARE: Активная генерация с расширенным поиском
19 мая - IRCoT: чередование поиска с цепочкой рассуждений для многоэтапных ответов на вопросы
20 мая - Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM
21 мая - TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом
22 мая - AuditCopilot: LLM для обнаружения мошенничества в бухгалтерском учете с двойной записью
23 мая - LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах
24 мая - Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение
25 мая - GuardAgent: детерминированное обеспечение безопасности LLM-агентов через выполнение кода
26 мая - Fusion-in-Decoder: как поиск по нескольким отрывкам улучшает генеративные вопросно-ответные системы
27 мая - Atlas: совместное преобучение ретривера и ридера превосходит LLM с 540 млрд параметров, используя лишь 11 млрд
28 мая - ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов
29 мая - AGrail: адаптивные защитные барьеры для LLM-агентов с обучением на разных задачах
30 мая - M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?
31 мая - Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления
1 июня - StructRAG (ICLR 2025): выбор правильной структуры документа превосходит GraphRAG на 28 пунктов
2 июня - InvestorBench: Тестирование LLM-агентов в принятии решений по финансовой торговле
3 июня - FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
4 июня - GraphRAG: от локального к глобальному суммаризированию по запросам
5 июня - Верифицируемо безопасное использование инструментов LLM-агентами: STPA встречает MCP
6 июня - Бенчмарк BIRD: Разрыв между LLM и реальными базами данных в Text-to-SQL
7 июня - DIN-SQL: декомпозированное обучение в контексте для преобразования текста в SQL
8 июня - MAC-SQL: Мультиагентное совместное преобразование текста в SQL
9 июня - TAPAS: слабо контролируемое табличное QA без SQL и что это значит для Beancount
10 июня - TableLlama: Может ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?
11 июня - Chain-of-Table: Эволюция таблиц в цепочке рассуждений LLM
12 июня - τ-bench: Измерение надежности ИИ-агентов в реальных сценариях использования инструментов
13 июня - WorkArena: Как LLM веб-агенты справляются с реальными задачами по обработке корпоративных знаний
14 июня - WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов
15 июня - OSWorld: настольные ИИ-агенты справляются с 12% задач, в то время как люди — с 72%
16 июня - Бенчмарк GAIA: оценка реальных возможностей передовых ИИ-агентов
17 июня - WorkArena++: 93-процентный разрыв между эффективностью человека и ИИ-агентов в композиционных корпоративных задачах
18 июня - τ²-bench: Оценка стоимости двойного управления в разговорных ИИ-агентах
19 июня - TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах
20 июня - DocFinQA: Рассуждения в длинном финансовом контексте на полных отчетах SEC
21 июня - Zero-Shot обнаружение аномалий с помощью LLM: Как GPT-4 справляется с табличными данными
22 июня - TableMaster: адаптивное рассуждение для понимания таблиц с помощью LLM
23 июня - LLM набирают 2,3% при генерации Beancount DSL: бенчмарк LLMFinLiteracy
24 июня - AnoLLM: Дообучение LLM для обнаружения аномалий в табличных финансовых данных
25 июня - CausalTAD: каузальное упорядочивание столбцов для обнаружения аномалий в табличных данных с помощью LLM
26 июня - Бенчмарк AD-LLM: GPT-4o достигает 0,93+ AUROC в режиме Zero-Shot для обнаружения текстовых аномалий
27 июня - Затерянные посередине: позиционное смещение в LLM и его влияние на финансовый ИИ
28 июня - FinDER: реальные запросы аналитиков выявили 74%-ный разрыв в полноте поиска для финансовых RAG-систем
29 июня - Fin-RATE: Как LLM терпят неудачу в кросс-периодном и кросс-субъектном финансовом анализе
30 июня - OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов
1 июля - Учёт неопределенности при делегировании задач LLM-агентами: когда переходить от малых моделей к большим
2 июля - Найдено посередине: калибровка позиционного смещения внимания улучшает RAG с длинным контекстом
3 июля - Обзор методов обнаружения аномалий с помощью LLM (NAACL 2025): сильная таксономия, отсутствие охвата табличных данных
4 июля - OmniEval: Всенаправленный бенчмарк для оценки RAG в финансовой сфере
5 июля - FinToolBench: Оценка LLM-агентов при использовании финансовых инструментов в реальных условиях
6 июля - FinTrace: Оценка траекторий вызова инструментов LLM для финансовых задач
7 июля - FinMCP-Bench: Тестирование LLM-агентов для решения реальных финансовых задач с использованием инструментов в рамках протокола MCP
8 июля - JSONSchemaBench: Сложность реальных схем нарушает гарантии структурированного вывода LLM
9 июля - Уверенность и калибровка LLM: обзор того, что на самом деле показывают исследования
10 июля - WildToolBench: Почему ни одна LLM не превышает 15% точности сессии в реальных сценариях использования инструментов
11 июля - Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв
12 июля - FinRAGBench-V: мультимодальный RAG с визуальными цитатами в финансовой сфере

Начните работу с Beancount.io

Возьмите финансы под контроль с нашей open-source системой двойной записи. Начните вести свою книгу сегодня.

Начать бесплатно Тарифы

С чего начать

Документация
Быстрый старт
Часто задаваемые вопросы
Первая транзакция
Открытая Книга
История изменений

Возможности

Облачная Fava
Контроль версий Git
ИИ-автоматизация
Мобильные приложения
Цены

Сообщество

Twitter/X
Чат в Telegram
GitHub
YouTube
Блог
О нас
Бренд-активы

Юридическая информация

Политика конфиденциальности
Условия использования
Безопасность
Центр ресурсов для основателей

© 2019 - {год} Beancount.io

Загрузить в App Store

Доступно в Google Play

Создано с прозрачностью • Контроль версий • На базе ИИ