Перейти к контенту

Bean Labs Research Log

Gorilla: Как обучение с учетом поиска (RAT) снижает уровень галлюцинаций LLM API с 78% до 11%

Gorilla (Patil et al., NeurIPS 2024) дообучает модель LLaMA 7B с помощью метода Retriever-Aware Training на найденной документации API, снижая уровень галлюцинаций с 78% до 11% по сравнению с GPT-4 zero-shot. Это имеет прямое значение для ИИ-агентов в сфере финансов, где неверные названия счетов или перепутанные знаки операций являются критическими ошибками.

Latest articles

MemGPT: управление виртуальным контекстом для LLM-агентов

MemGPT применяет подкачку виртуальной памяти в стиле ОС к LLM, используя трехуровневое хранилище — рабочую, оперативную и архивную память — для обеспечения агентов постоянным доступом к данным между сессиями; в бенчмарках многосессионных чатов MemGPT с GPT-4 достигает точности 92,5% против 32,1% у базовой модели с фиксированным контекстом.

SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО

SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.

SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?

SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.

CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее

CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных пунктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.

LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах

Хуанг и др. (ICLR 2024) показывают, что LLM, когда их просят пересмотреть собственные рассуждения без внешней обратной связи, стабильно теряют в точности — GPT-4 падает с 95,5% до 91,5% на GSM8K. Мы разберем, что это значит для проектирования надежных агентов для создания журнальных записей Beancount.

Tree of Thoughts: осознанное решение задач с помощью поиска через LLM

Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.

Reflexion: языковые агенты, которые учатся на ошибках без переобучения

Reflexion (NeurIPS 2023) позволяет LLM-агентам совершенствоваться, сохраняя вербальный анализ ошибок в эпизодическом буфере — без необходимости обновления весов. Метод достигает 91% на HumanEval с GPT-4, но терпит неудачу в WebShop, выявляя структурное ограничение: вербальное подкрепление работает только тогда, когда оценщик выдает четкий, действенный сигнал. Вот что это значит для создания самокорректирующегося агента для учета в Beancount.

Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений

Self-consistency заменяет жадное декодирование цепочки рассуждений голосованием большинством по N сэмплированным путям рассуждения — повышая точность GPT-3 на GSM8K на 17,9 процентных пункта без дообучения — и напрямую применяется к многоэтапным финансовым расчетам, где однократный вывод LLM ненадежен.