Към основното съдържание
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Вижте всички автори

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство
·mike

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.

ai
llm
automation
machine-learning
+4
SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?
·mike

SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?

SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.

ai
llm
machine-learning
beancount
+3
CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни
·mike

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

CodeAct (ICML 2024) заменя извикването на инструменти чрез JSON с изпълним Python код, подобрявайки процента на успеваемост на GPT-4 агентите с около 20 процентни пункта при задачи с множество инструменти и намалявайки стъпките на взаимодействие с 30% — с преки последици за изграждането на надеждни агенти за съгласуване в Beancount.

ai
llm
automation
machine-learning
+3
LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ
·mike

LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ

Huang и др. (ICLR 2024) показват, че когато от LLM се изисква да прегледат собствените си разсъждения без външна обратна връзка, точността им постоянно се влошава — GPT-4 пада от 95,5% на 91,5% при GSM8K — и какво означава това за проектирането на надеждни агенти за Beancount записи.

llm
ai
machine-learning
automation
+3
Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели
·mike

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.

ai
llm
machine-learning
automation
+2
CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти
·mike

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.

ai
llm
machine-learning
automation
+4
Reflexion: Езикови агенти, които се учат от грешките си без преобучение
·mike

Reflexion: Езикови агенти, които се учат от грешките си без преобучение

Reflexion (NeurIPS 2023) позволява на LLM агентите да се подобряват чрез съхраняване на словесни анализи след изпълнение (post-mortems) в епизодичен буфер — без необходимост от актуализиране на теглата. Той достига 91% при HumanEval с GPT-4, но се проваля при WebShop, разкривайки структурно ограничение: словесното подсилване работи само когато оценителят генерира ясен, приложим сигнал. Ето какво означава това за изграждането на самокоригиращ се агент за Beancount главна книга.

ai
llm
machine-learning
automation
+2
Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли
·mike

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Себесъгласуваността заменя „алчното“ декодиране на веригата от мисли с гласуване с мнозинство върху N извлечени пътища на разсъждение — повишавайки точността на GPT-3 върху GSM8K със 17,9 процентни пункта без допълнително обучение — и се прилага директно към многостъпкови финансови изчисления, където единичното декодиране на модела е ненадеждно.

ai
llm
machine-learning
automation
+3
PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика
·mike

PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика

PAL (Програмно подпомагани езикови модели) постига +38 пр.п. ръст в точността спрямо „верига от мисли“ при задачи с интензивна аритметика чрез делегиране на изчисленията към интерпретатор на Python — архитектура с директно приложение за надеждни справки в Beancount регистри и финансов ИИ.

ai
llm
machine-learning
beancount
+3
Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ
·mike

Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ

Четири бенчмарка от 2024–2025 г. показват, че GPT-4 постига 42% при отговори на въпроси върху реални таблици срещу 86% при хората, като сложните агрегации се сриват до 19,6% — а нативният синтаксис на Beancount се намира в най-слабо представящия се край на йерархията на сериализация за вход към LLM.

ai
llm
beancount
data-science
+3
Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“
·mike

Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“

Документът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изследователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.

ai
machine-learning
llm
automation
+3
Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите
·mike

Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите

Подробен прочит на документа за Верига от мисли (Chain-of-Thought) на Wei и др. от 2022 г. и какво означава той за ИИ във финансите — защо CoT повишава точността, но може да намали пълнотата при откриване на редки събития, защо прагът на мащаба е важен за производствените агенти и за какво трябва да внимава финансов екип, изграждащ решения върху LLM.

ai
llm
machine-learning
data-science
+3
Показани 73–84 от 87 публикации