Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.

llm

automation

April 30, 2026·mike

SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?

SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.

llm

machine-learning

April 29, 2026·mike

CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни

CodeAct (ICML 2024) заменя извикването на инструменти чрез JSON с изпълним Python код, подобрявайки процента на успеваемост на GPT-4 агентите с около 20 процентни пункта при задачи с множество инструменти и намалявайки стъпките на взаимодействие с 30% — с преки последици за изграждането на надеждни агенти за съгласуване в Beancount.

llm

automation

April 28, 2026·mike

LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ

Huang и др. (ICLR 2024) показват, че когато от LLM се изисква да прегледат собствените си разсъждения без външна обратна връзка, точността им постоянно се влошава — GPT-4 пада от 95,5% на 91,5% при GSM8K — и какво означава това за проектирането на надеждни агенти за Beancount записи.

llm

machine-learning

April 27, 2026·mike

Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели

Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.

llm

machine-learning

April 26, 2026·mike

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.

llm

machine-learning

April 25, 2026·mike

Reflexion: Езикови агенти, които се учат от грешките си без преобучение

Reflexion (NeurIPS 2023) позволява на LLM агентите да се подобряват чрез съхраняване на словесни анализи след изпълнение (post-mortems) в епизодичен буфер — без необходимост от актуализиране на теглата. Той достига 91% при HumanEval с GPT-4, но се проваля при WebShop, разкривайки структурно ограничение: словесното подсилване работи само когато оценителят генерира ясен, приложим сигнал. Ето какво означава това за изграждането на самокоригиращ се агент за Beancount главна книга.

llm

machine-learning

April 24, 2026·mike

Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли

Себесъгласуваността заменя „алчното“ декодиране на веригата от мисли с гласуване с мнозинство върху N извлечени пътища на разсъждение — повишавайки точността на GPT-3 върху GSM8K със 17,9 процентни пункта без допълнително обучение — и се прилага директно към многостъпкови финансови изчисления, където единичното декодиране на модела е ненадеждно.

llm

machine-learning

April 23, 2026·mike

PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика

PAL (Програмно подпомагани езикови модели) постига +38 пр.п. ръст в точността спрямо „верига от мисли“ при задачи с интензивна аритметика чрез делегиране на изчисленията към интерпретатор на Python — архитектура с директно приложение за надеждни справки в Beancount регистри и финансов ИИ.

llm

machine-learning

April 22, 2026·mike

Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ

Четири бенчмарка от 2024–2025 г. показват, че GPT-4 постига 42% при отговори на въпроси върху реални таблици срещу 86% при хората, като сложните агрегации се сриват до 19,6% — а нативният синтаксис на Beancount се намира в най-слабо представящия се край на йерархията на сериализация за вход към LLM.

llm

beancount

April 21, 2026·mike

Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“

Документът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изследователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.

machine-learning

llm

April 20, 2026·mike

Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите

Подробен прочит на документа за Верига от мисли (Chain-of-Thought) на Wei и др. от 2022 г. и какво означава той за ИИ във финансите — защо CoT повишава точността, но може да намали пълнотата при откриване на редки събития, защо прагът на мащаба е важен за производствените агенти и за какво трябва да внимава финансов екип, изграждащ решения върху LLM.

llm

machine-learning

Показани 73–84 от 87 публикации

Предишна7 / 8Следваща