2026
- 15 април - FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството
- 16 април - Toolformer: Самообучено използване на инструменти и неговите ограничения за финансовия ИИ
- 17 април - ReAct: Синергия между разсъждение и действие при езиковите модели
- 18 април - FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети
- 19 април - PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи
- 20 април - Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите
- 21 април - Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“
- 22 април - Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ
- 23 април - PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика
- 24 април - Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли
- 25 април - Reflexion: Езикови агенти, които се учат от грешките си без преобучение
- 26 април - CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти
- 27 април - Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели
- 28 април - LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ
- 29 април - CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни
- 30 април - SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?
- 1 май - SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство
- 2 май - MemGPT: Управление на виртуален контекст за LLM агенти
- 3 май - Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%
- 4 май - AutoGen: Многоагентни рамки за разговори за финансов ИИ
- 5 май - BloombergGPT и границите на специализираните LLM в област та на финансите
- 6 май - AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите
- 7 май - HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs
- 8 май - Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти
- 9 май - Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)
- 10 май - LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка
- 11 май - DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери
- 12 май - FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи
- 13 май - FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети
- 14 май - TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети
- 15 май - ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти
- 16 май - MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици
- 17 май - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- 18 май - FLARE: Активно извличане с добавена генерация
- 19 май - IRCoT: Преплитане на извличане с верига от мисли за многоетапно търсене на отговори
- 20 май - Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM
- 21 май - TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст
- 22 май - AuditCopilot: LLM за откриване на измами при двустранно счетоводство
- 23 май - LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ
- 24 май - Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда
- 25 май - GuardAgent: Детерминистично прилагане на безопасността за LLM агенти чрез изпълнение на код
- 26 май - Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и от говори
- 27 май - Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри
- 28 май - ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти
- 29 май - AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите
- 30 май - M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?
- 31 май - Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене
- 1 юни - StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки
- 2 юни - InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия
- 3 юни - FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL
- 4 юни - GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки
- 5 юни - Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP
- 6 юни - BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL
- 7 юни - DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL
- 8 юни - MAC-SQL: Многоагентно сътрудничество за Text-to-SQL
- 9 юни - TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount
- 10 юни - TableLlama: М оже ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?
- 11 юни - Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM
- 12 юни - τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти
- 13 юни - WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа
- 14 юни - WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите
- 15 юни - OSWorld: Настолните AI агенти успяват в 12% от задачите, докато хората постигат 72%
- 16 юни - GAIA Benchmark: Измерване на това, което граничните AI агенти всъщност могат да правят
- 17 юни - WorkArena++: Разл иката от 93% между представянето на хората и ИИ агентите при сложни корпоративни задачи
- 18 юни - τ²-bench: Измерване на цената на двойния контрол при разговорните AI агенти
- 19 юни - TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи
- 20 юни - DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети
- 21 юни - Откриване на аномалии без обучение (Zero-Shot) с LLM: Как се справя GPT-4 с таблични данни
- 22 юни - TableMaster: Адаптивно разсъждение за разбиране на таблици с LLMs
- 23 юни - LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy
- 24 юни - AnoLLM: Фина настройка на LLM за откриване на таблични аномалии във финансови данни
- 25 юни - CausalTAD: Каузално подреждане на колони за откриване на аномалии в таблични данни чрез LLM
- 26 юни - AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст
- 27 юни - Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ
- 28 юни - FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG
- 29 юни - Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ
- 30 юни - OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите
- 1 юли - Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели
- 2 юли - Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст
- 3 юли - Обзор на откриването на аномалии с LLM (NAACL 2025): Силна таксономия, липса на обхват при табличните данни
- 4 юли - OmniEval: Всепосочен бенчмарк за оценка на RAG във финансовата сфера
- 5 юли - FinToolBench: Оценяване на LLM агенти при използване на финансови инструменти в реалния свят
- 6 юли - FinTrace: Оценка на ниво траектория при извикване на инструменти от LLM за финансови задачи
- 7 юли - FinMCP-Bench: Сравнителен анализ на LLM агенти за реално използване на финансови инструменти под MCP
- 8 юли - JSONSchemaBench: Сложността на реалните схеми нарушава гаранциите за структуриран изход при LLM
- 9 юли - Доверие и калибриране на LLM: Обзор на това, което изследванията всъщност показват
- 10 юли - WildToolBench: Защо нито един LLM не надвишава 15% точност на сесиите при използване на инструменти в реалния свят
- 11 юли - Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст
- 12 юли - FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област