Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Управление на виртуален контекст за LLM агенти

MemGPT прилага виртуално пейджиране на паметта в стил операционна система към LLM, използвайки тристепенно съхранение — работна памет, памет за припомняне и архивно хранилище — за да осигури на агентите постоянно припомняне между сесиите; при бенчмаркове за многосесийни чатове, MemGPT с GPT-4 постига 92,5% точност срещу 32,1% базова линия с фиксиран контекст.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?

SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

CodeAct (ICML 2024) заменя извикването на инструменти чрез JSON с изпълним Python код, подобрявайки процента на успеваемост на GPT-4 агентите с около 20 процентни пункта при задачи с множество инструменти и намалявайки стъпките на взаимодействие с 30% — с преки последици за изграждането на надеждни агенти за съгласуване в Beancount.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ

Huang и др. (ICLR 2024) показват, че когато от LLM се изисква да прегледат собствените си разсъждения без външна обратна връзка, точността им постоянно се влошава — GPT-4 пада от 95,5% на 91,5% при GSM8K — и какво означава това за проектирането на надеждни агенти за Beancount записи.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: Езикови агенти, които се учат от грешките си без преобучение

Reflexion (NeurIPS 2023) позволява на LLM агентите да се подобряват чрез съхраняване на словесни анализи след изпълнение (post-mortems) в епизодичен буфер — без необходимост от актуализиране на теглата. Той достига 91% при HumanEval с GPT-4, но се проваля при WebShop, разкривайки структурно ограничение: словесното подсилване работи само когато оценителят генерира ясен, приложим сигнал. Ето какво означава това за изграждането на самокоригиращ се агент за Beancount главна книга.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Себесъгласуваността заменя „алчното“ декодиране на веригата от мисли с гласуване с мнозинство върху N извлечени пътища на разсъждение — повишавайки точността на GPT-3 върху GSM8K със 17,9 процентни пункта без допълнително обучение — и се прилага директно към многостъпкови финансови изчисления, където единичното декодиране на модела е ненадеждно.

Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%

Latest articles

MemGPT: Управление на виртуален контекст за LLM агенти

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

Reflexion: Езикови агенти, които се учат от грешките си без преобучение

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси