Преминете към основното съдържание

Bean Labs Research Log

Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%

Gorilla (Patil et al., NeurIPS 2024) фино настройва 7B LLaMA модел с обучение с отчитане на извличането (Retriever-Aware Training) върху извлечена API документация, намалявайки процента на халюцинации от 78% на 11% спрямо GPT-4 zero-shot — с преки последици за финансовите AI агенти за записване, където грешните имена на сметки или обърнатите знаци са критични грешки, а не просто неудобства.

Latest articles

MemGPT: Управление на виртуален контекст за LLM агенти

MemGPT прилага виртуално пейджиране на паметта в стил операционна система към LLM, използвайки тристепенно съхранение — работна памет, памет за припомняне и архивно хранилище — за да осигури на агентите постоянно припомняне между сесиите; при бенчмаркове за многосесийни чатове, MemGPT с GPT-4 постига 92,5% точност срещу 32,1% базова линия с фиксиран контекст.

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.

SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?

SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

CodeAct (ICML 2024) заменя извикването на инструменти чрез JSON с изпълним Python код, подобрявайки процента на успеваемост на GPT-4 агентите с около 20 процентни пункта при задачи с множество инструменти и намалявайки стъпките на взаимодействие с 30% — с преки последици за изграждането на надеждни агенти за съгласуване в Beancount.

LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ

Huang и др. (ICLR 2024) показват, че когато от LLM се изисква да прегледат собствените си разсъждения без външна обратна връзка, точността им постоянно се влошава — GPT-4 пада от 95,5% на 91,5% при GSM8K — и какво означава това за проектирането на надеждни агенти за Beancount записи.

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.

Reflexion: Езикови агенти, които се учат от грешките си без преобучение

Reflexion (NeurIPS 2023) позволява на LLM агентите да се подобряват чрез съхраняване на словесни анализи след изпълнение (post-mortems) в епизодичен буфер — без необходимост от актуализиране на теглата. Той достига 91% при HumanEval с GPT-4, но се проваля при WebShop, разкривайки структурно ограничение: словесното подсилване работи само когато оценителят генерира ясен, приложим сигнал. Ето какво означава това за изграждането на самокоригиращ се агент за Beancount главна книга.

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Себесъгласуваността заменя „алчното“ декодиране на веригата от мисли с гласуване с мнозинство върху N извлечени пътища на разсъждение — повишавайки точността на GPT-3 върху GSM8K със 17,9 процентни пункта без допълнително обучение — и се прилага директно към многостъпкови финансови изчисления, където единичното декодиране на модела е ненадеждно.