Перейти до основного вмісту

Bean Labs Research Log

Gorilla: як навчання з урахуванням пошуку (Retriever-Aware Training) знижує рівень галюцинацій LLM API з 78% до 11%

Gorilla (Patil та ін., NeurIPS 2024) виконує тонке налаштування моделі LLaMA 7B за допомогою навчання з урахуванням пошуку (Retriever-Aware Training) на знайденій документації API, знижуючи частоту галюцинацій з 78% до 11% порівняно з GPT-4 zero-shot — це має пряме значення для фінансових ШІ-агентів зворотного запису, де помилкові назви рахунків або переплутані знаки є критичними помилками, а не просто незручностями.

Latest articles

MemGPT: Віртуальне керування контекстом для агентів LLM

MemGPT застосовує підкачування віртуальної пам’яті в стилі ОС до LLM, використовуючи трирівневе сховище — робочу пам’ять, пам’ять відтворення та архівну пам’ять — щоб надати агентам стійке відтворення між сесіями; на тестах багатосесійних чатів MemGPT з GPT-4 досягає точності 92,5% проти базової лінії 32,1% з фіксованим контекстом.

SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії

SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.

SWE-bench: Чи можуть мовні моделі вирішувати реальні проблеми GitHub?

SWE-bench оцінює мовні моделі на основі 2294 реальних проблем GitHub у 12 репозиторіях Python за допомогою тестів на основі виконання; на момент публікації Claude 2 вирішив лише 1,96% проблем за умови реалістичного пошуку, ставши бенчмарком де-факто для агентів кодування та виявивши недоліки в пошуку та довжині патчів, які мають безпосереднє значення для агентів запису Beancount.

CodeAct: Чому виконуваний код Python робить LLM-агентів на 20% точнішими

CodeAct (ICML 2024) замінює JSON-виклики інструментів виконуваним кодом Python, що підвищує рівень успіху агентів GPT-4 приблизно на 20 відсоткових пунктів у завданнях із використанням кількох інструментів і скорочує кількість ітерацій на 30% — це має пряме значення для створення надійних агентів узгодження Beancount.

LLM ще не можуть самостійно виправляти власні міркування — висновки ICLR 2024 та наслідки для ШІ у фінансах

Хуанг та ін. (ICLR 2024) демонструють, що LLM, яких просять переглянути власні міркування без зовнішнього зворотного зв'язку, стабільно втрачають точність — показник GPT-4 падає з 95,5% до 91,5% на GSM8K — і що це означає для розробки надійних агентів для записів у журналі Beancount.

Tree of Thoughts: Свідоме розв'язання проблем через пошук у LLM

Tree of Thoughts (ToT) досягає 74% у «Грі 24» проти 4% у стандартному GPT-4 CoT шляхом організації міркувань LLM у дерево пошуку з розгалуженням, відсіканням та поверненням назад — це має прямі наслідки для багатоетапної фінансової класифікації та оптимізації податків у робочих процесах Beancount.

CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів

CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.

Reflexion: мовні агенти, які вчаться на помилках без перенавчання

Reflexion (NeurIPS 2023) дозволяє LLM-агентам удосконалюватися шляхом збереження вербального аналізу помилок в епізодичному буфері — без потреби в оновленні ваг. Метод досягає 91% на HumanEval з GPT-4, але зазнає невдачі в WebShop, виявляючи структурне обмеження — вербальне підкріплення працює лише тоді, коли оцінювач видає чіткий, дієвий сигнал. Ось що це означає для створення самокоригованого агента для книги Beancount.

Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок

Самоузгодженість замінює жадібне декодування ланцюжка думок голосуванням більшістю за N вибраними шляхами міркування — підвищуючи точність GPT-3 на GSM8K на 17,9 відсоткових пунктів без донавчання — і безпосередньо застосовується до багатоетапних фінансових розрахунків, де одноразове виведення ВММ є ненадійним.