Архів
Архів усіх публікацій
2026
- 15 квітня - FinBen: Бенчмаркінг LLM у 36 фінансових завданнях — наслідки для ШІ в бухгалтерському обліку
- 16 квітня - Toolformer: Самокероване використання інструментів та його обмеження для фінансового ШІ
- 17 квітня - ReAct: Синергія міркування та дії в мовних моделях
- 18 квітня - Бенчмарк FinMaster: чому LLM отримують 96% за фінансову грамотність, але лише 3% за формування звітності
- 19 квітня - PHANTOM (NeurIPS 2025): Вимірювання виявлення галюцинацій LLM у фінансових документах
- 20 квітня - Chain-of-Thought Prompting: компроміси між точністю та повнотою для ШІ у сфері фінансів
- 21 квітня - Конст итуційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта
- 22 квітня - Чи можуть LLM аналізувати табличні дані? Що чотири бенчмарки кажуть про ШІ у фінансах
- 23 квітня - PAL: Моделі програмованої мови для надійної фінансової арифметики
- 24 квітня - Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок
- 25 квітня - Reflexion: мовні агенти, які вчаться на помилках без перенавчання
- 26 квітня - CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів
- 27 квітня - Tree of Thoughts: Свідоме розв'язання проблем через пошук у LLM
- 28 квітня - LLM ще не можуть самостійно виправляти власні міркування — висновки ICLR 2024 та наслідки для ШІ у фінансах
- 29 квітня - CodeAct: Чому виконуваний код Python робить LLM-агентів на 20% точнішими
- 30 квітня - SWE-bench: Чи можуть мовні моделі вирішувати реальні проблеми GitHub?
- 1 травня - SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії
- 2 травня - MemGPT: Віртуальне керування контекстом для агентів LLM
- 3 травня - Gorilla: як навчання з урахуванням пошуку (Retriever-Aware Training) знижує рівень галюцинацій LLM API з 78% до 11%
- 4 травня - AutoGen: Фреймворки мультиагентної взаємодії для ШІ у фінансах
- 5 травня - BloombergGPT та межі вузькоспеціалізованих LLM у фінансах
- 6 травня - AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах
- 7 травня - HippoRAG: нейробіологічно натхненна довгострокова пам'ять для LLM
- 8 травня - Voyager: Бібліотеки навичок як основа для безперервного навчання ШІ-агентів
- 9 травня - Self-RAG: Адаптивний пошук та самокритика для LLM
- 10 травня - LATS: Language Agent Tree Search — Міркування, Дія та Планування в Єдиній Системі
- 11 травня - DSPy: Заміна крихкого промпт-інжинірингу компільованими конвеєрами LLM
- 12 травня - FinanceBench: Чому RAG на основі векторних сховищ зазнає невдачі на реальних фінансових документах
- 13 травня - FinQA: Бенчмарк для вимірювання чисельних міркувань ШІ у фінансових звітах
- 14 травня - TAT-QA: Гібридний бенчмарк відповідей на запитання для аналізу фінансової звітності
- 15 травня - ConvFinQA: багатокрокові фінансові запитання та відповіді та 21-пунктовий розрив між моделями та експертами-людьми
- 16 травня - MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць
- 17 травня - Генерація з доповненим пошуком для завдань NLP з інтенсивним використанням знань
- 18 травня - FLARE: Активна генерація з доповненням пошуком
- 19 травня - IRCoT: чергування пошуку та ланцюжка міркувань для багатоетапних запитань
- 20 травня - Тонке налаштування проти RAG: Чому пошук перемагає при в провадженні нових знань у LLM
- 21 травня - TAT-LLM: Тонко налаштована LLaMA 2 для дискретного логічного висновку над фінансовими таблицями та текстом
- 22 травня - AuditCopilot: LLM для виявлення шахрайства в подвійній бухгалтерії
- 23 травня - LLM не корисні для прогнозування часових рядів: що означає NeurIPS 2024 для ШІ у фінансах
- 24 травня - Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія
- 25 травня - GuardAgent: Deterministic Safety Enforcement for LLM Agents via Code Execution
- 26 травня - Fusion-in-Decoder: як пошук за декількома уривками покращує генеративні відповіді на запитання
- 27 травня - Atlas: спільне попереднє навч ання ретривера та рідера перевершує LLM з 540 млрд параметрів, маючи лише 11 млрд
- 28 травня - ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM
- 29 травня - AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань
- 30 травня - M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?
- 31 травня - Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення
- 1 червня - StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів
- 2 червня - InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі
- 3 червня - FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks
- 4 червня - GraphRAG: Від локального до глобального узагальнення, орієнтованого на запити
- 5 червня - Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP
- 6 червня - Бенчмарк BIRD: Розрив між реальними базами даних у Text-to-SQL для LLM
- 7 червня - DIN-SQL: Декомпозоване навчання в контексті для Text-to-SQL
- 8 червня - MAC-SQL: Багатоагентна спільна робота для перетворення тексту в SQL
- 9 червня - TAPAS: Слабко контрольоване табличне QA без SQL та його значення для Beancount
- 10 червня - TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?
- 11 червня - Chain-of-Table: Evolving Tables in the LLM Reasoning Chain
- 12 червня - τ-bench: Вимірювання надійності ШІ-агентів у реальних сценаріях використання інструментів
- 13 червня - WorkArena: Як вебагенти на базі LLM справляються з реальною інтелектуальною працею на підприємствах
- 14 червня - WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів
- 15 червня - OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%
- 16 червня - Бенчмарк GAIA: Вимірювання того, що провідні ШІ-агенти насправді можуть робити
- 17 червня - WorkArena++: 93% розрив між ефективністю людей та ШІ-агентів у композиційних корпоративних завданнях
- 18 червня - τ²-bench: Вимірювання вартості подвійного керування в розмовних ШІ-агентах
- 19 червня - TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях
- 20 червня - DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC
- 21 червня - Виявлення аномалій за методом Zero-Shot за допомогою LLM: Як GPT-4 працює з табличними даними
- 22 червня - TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM
- 23 червня - LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy
- 24 червня - AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних
- 25 червня - CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM
- 26 червня - Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті
- 27 червня - Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів
- 28 червня - FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем
- 29 червня - Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі
- 30 червня - OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів
- 1 липня - Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей
- 2 липня - Знайдено посередині: Калібрування позиційного зміщення уваги покращує RAG з довгим контекстом
- 3 липня - Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних
- 4 липня - OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері
- 5 липня - FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах
- 6 липня - FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії
- 7 липня - FinMCP-Bench: Бенчмаркінг агентів LLM для реального використання фінансових інструментів під управлінням MCP
- 8 липня - JSONSchemaBench: Складність р еальних схем порушує гарантії структурованого виводу LLM
- 9 липня - Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження
- 10 липня - WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів
- 11 липня - Чи можуть LLM-агенти бути фінансовими директорами? 132-місячна симуляція EnterpriseArena виявляє великий розрив
- 12 липня - FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері