8 записів з тегом "Technology"

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів

WildToolBench (ICLR 2026) оцінює 57 LLM на 1024 завданнях, сформованих на основі реальної поведінки користувачів — жодна модель не перевищує 15% точності сесії, при цьому основними режимами відмов є композиційна оркестрація, прихований намір та переходи між інструкціями.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реальних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Адаптивний пошук та самокритика для LLM

Self-RAG (ICLR 2024 Oral) навчає мовну модель вирішувати, коли здійснювати пошук, а потім оцінювати власні результати за допомогою чотирьох токенів рефлексії — досягаючи 55,8% на PopQA та 80,2 FactScore на біографіях, перевершуючи ChatGPT у п'яти тестах. Аналіз охоплює механізм, результати абляції, обмеження відтворюваності та наслідки для фінансових ШІ-агентів у книгах Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах

AgentBench (Liu та ін., ICLR 2024) тестує 27 моделей LLM у 8 інтерактивних середовищах — GPT-4 отримав загальний бал 4,01 проти 0,96 у найкращої моделі з відкритим кодом. Три основні типи помилок (перевищення ліміту завдань у 67,9% помилок графа знань, помилки формату у 53,3% помилок бази даних та недійсні дії) безпосередньо відображають ризики розгортання агента запису Beancount у реальному гросбуху.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Віртуальне керування контекстом для агентів LLM

MemGPT застосовує підкачування віртуальної пам’яті в стилі ОС до LLM, використовуючи трирівневе сховище — робочу пам’ять, пам’ять відтворення та архівну пам’ять — щоб надати агентам стійке відтворення між сесіями; на тестах багатосесійних чатів MemGPT з GPT-4 досягає точності 92,5% проти базової лінії 32,1% з фіксованим контекстом.

Все про Technology

WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

OSWorld: ШІ-агенти для робочого столу успішно виконують 12% завдань, тоді як люди — 72%

StructRAG (ICLR 2025): Вибір правильної структури документа перевершує GraphRAG на 28 пунктів

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

Self-RAG: Адаптивний пошук та самокритика для LLM

AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах

MemGPT: Віртуальне керування контекстом для агентів LLM

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація