Mike Thrift
Marketing Manager
SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство
SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.
SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?
SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.
CodeAct: Защо изпълнимият Python код прави LLM агентите с 20% по-точни
CodeAct (ICML 2024) заменя извикването на инструменти чрез JSON с изпълним Python код, подобрявайки процента на успеваемост на GPT-4 агентите с около 20 процентни пункта при задачи с множество инструменти и намалявайки стъпките на взаимодействие с 30% — с преки последици за изграждането на надеждни агенти за съгласуване в Beancount.
LLM все още не могат да коригират сами логическите си разсъждения — изводи от ICLR 2024 и последици за финансовия ИИ
Huang и др. (ICLR 2024) показват, че когато от LLM се изисква да прегледат собствените си разсъждения без външна обратна връзка, точността им постоянно се влошава — GPT-4 пада от 95,5% на 91,5% при GSM8K — и какво означава това за проектирането на надеждни агенти за Beancount записи.
Дърво на мислите: Съзнателно решаване на проблеми с търсене чрез големи езикови модели
Дърво на мислите (ToT) постига 74% в Game of 24 срещу 4% за стандартен GPT-4 CoT чрез организиране на разсъжденията на модела в разклонено дърво за търсене с подрязване и връщане назад — с преки последици за многостъпковата финансова класификация и данъчната оптимизация в работните процеси на Beancount.
CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти
CRITIC (ICLR 2024) постига 7,7 F1 печалби при QA с отворен домейн и 79,2% намаление на токсичността чрез базиране на LLM ревизията в сигнали от външни инструменти — цикъл „проверка-след това-корекция“, който се пренася директно върху безопасността на обратния запис за финансови агенти на Beancount.
Reflexion: Езикови агенти, които се учат от грешките си без преобучение
Reflexion (NeurIPS 2023) позволява на LLM агентите да се подобряват чрез съхраняване на словесни анализи след изпълнение (post-mortems) в епизодичен буфер — без необходимост от актуализиране на теглата. Той достига 91% при HumanEval с GPT-4, но се проваля при WebShop, разкривайки структурно ограничение: словесното подсилване работи само когато оценителят генерира ясен, приложим сигнал. Ето какво означава това за изграждането на самокоригиращ се агент за Beancount главна книга.
Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли
Себесъгласуваността заменя „алчното“ декодиране на веригата от мисли с гласуване с мнозинство върху N извлечени пътища на разсъждение — повишавайки точността на GPT-3 върху GSM8K със 17,9 процентни пункта без допълнително обучение — и се прилага директно към многостъпкови финансови изчисления, където единичното декодиране на модела е ненадеждно.
PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика
PAL (Програмно подпомагани езикови модели) постига +38 пр.п. ръст в точността спрямо „верига от мисли“ при задачи с интензивна аритметика чрез делегиране на изчисленията към интерпретатор на Python — архитектура с директно приложение за надеждни справки в Beancount регистри и финансов ИИ.
Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ
Четири бенчмарка от 2024–2025 г. показват, че GPT-4 постига 42% при отговори на въпроси върху реални таблици срещу 86% при хората, като сложните агрегации се сриват до 19,6% — а нативният синтаксис на Beancount се намира в най-слабо представящия се край на йерархията на сериализация за вход към LLM.
Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“
Документът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изследователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.
Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите
Подробен прочит на документа за Верига от мисли (Chain-of-Thought) на Wei и др. от 2022 г. и какво означава той за ИИ във финансите — защо CoT повишава точността, но може да намали пълнотата при откриване на редки събития, защо прагът на мащаба е важен за производствените агенти и за какво трябва да внимава финансов екип, изграждащ решения върху LLM.