Преминете към основното съдържание

Beancount.io

Помощен център
Блог
Отворена главна книга

AI CFO
Свързване на сметки
Интелигентно импортиране
Git за Beancount
Хостван Fava
Приложение за Android
Приложение за iOS

Български

English
中文
Български
Català
Deutsch
Español
فارسی
Français
日本語
한국어
Nederlands
Português
Русский
Slovenčina
Українська

Вход Започнете сега

Архив

Архив

2026

15 април - FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството
16 април - Toolformer: Самообучено използване на инструменти и неговите ограничения за финансовия ИИ
17 април - ReAct: Синергия между разсъждение и действие при езиковите модели
18 април - FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети
19 април - PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи
20 април - Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите
21 април - Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“
22 април - Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ
23 април - PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика
24 април - Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли
25 април - Reflexion: Езикови агенти, които се учат от грешките си без преобучение
26 април - CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти
27 април - Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели
28 април - LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ
29 април - CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни
30 април - SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?
1 май - SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство
2 май - MemGPT: Управление на виртуален контекст за LLM агенти
3 май - Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%
4 май - AutoGen: Многоагентни рамки за разговори за финансов ИИ
5 май - BloombergGPT и границите на специализираните LLM в областта на финансите
6 май - AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите
7 май - HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs
8 май - Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти
9 май - Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)
10 май - LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка
11 май - DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери
12 май - FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи
13 май - FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети
14 май - TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети
15 май - ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти
16 май - MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици
17 май - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
18 май - FLARE: Активно извличане с добавена генерация
19 май - IRCoT: Преплитане на извличане с верига от мисли за многоетапно търсене на отговори
20 май - Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM
21 май - TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст
22 май - AuditCopilot: LLM за откриване на измами при двустранно счетоводство
23 май - LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ
24 май - Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда
25 май - GuardAgent: Детерминистично прилагане на безопасността за LLM агенти чрез изпълнение на код
26 май - Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и отговори
27 май - Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри
28 май - ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти
29 май - AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите
30 май - M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?
31 май - Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене
1 юни - StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки
2 юни - InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия
3 юни - FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL
4 юни - GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки
5 юни - Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP
6 юни - BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL
7 юни - DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL
8 юни - MAC-SQL: Многоагентно сътрудничество за Text-to-SQL
9 юни - TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount
10 юни - TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?
11 юни - Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM
12 юни - τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти
13 юни - WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа
14 юни - WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите
15 юни - OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%
16 юни - GAIA Benchmark: Измерване на това, което граничните AI агенти всъщност могат да правят
17 юни - WorkArena++: Разликата от 93% между представянето на хората и ИИ агентите при сложни корпоративни задачи
18 юни - τ²-bench: Измерване на цената на двойния контрол при разговорните AI агенти
19 юни - TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи
20 юни - DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети
21 юни - Откриване на аномалии без обучение (Zero-Shot) с LLM: Как се справя GPT-4 с таблични данни
22 юни - TableMaster: Адаптивно разсъждение за разбиране на таблици с LLMs
23 юни - LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy
24 юни - AnoLLM: Фина настройка на LLM за откриване на таблични аномалии във финансови данни
25 юни - CausalTAD: Каузално подреждане на колони за откриване на аномалии в таблични данни чрез LLM
26 юни - AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст
27 юни - Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ
28 юни - FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG
29 юни - Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ
30 юни - OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите
1 юли - Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели
2 юли - Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст
3 юли - Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни
4 юли - OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера
5 юли - FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят
6 юли - FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи
7 юли - FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP
8 юли - JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM
9 юли - Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват
10 юли - WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят
11 юли - Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст
12 юли - FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

Започнете с Beancount.io

Поемете контрол над финансите си с нашата отворена система за двустранно счетоводство. Започнете своя регистър днес.

Започнете безплатно Вижте цените

Първи стъпки

Документация
Ръководство за бърз старт
Често задавани въпроси
Първа трансакция
Отворена главна книга
Списък с промени

Функции

Хоствана Fava
Git контрол на версиите
AI автоматизация
Мобилни приложения
Цени

Общност

Twitter / X
Telegram чат
GitHub
YouTube
Блог
За нас
Ресурси за бранда

Правни въпроси

Политика за поверителност
Общи условия
Сигурност
Център за ресурси за основатели

© 2019 - 2026 Beancount.io

Изтеглете от App Store

Вземете го от Google Play

Изградено с прозрачност • Контрол на версиите • Задвижвано от AI