Преминете към основното съдържание
Plain-Text Accounting

Всичко за Plain-Text Accounting

33 статии
Research grounded in plain-text accounting formats and workflows

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.

OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите

OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.

LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy

Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.

TableMaster: Адаптивно разсъждение за разбиране на таблици с LLMs

TableMaster е конвейер, базиран само на промптване, който достига 78,13% на WikiTQ с GPT-4o-mini — с 13 пункта над Chain-of-Table — чрез комбиниране на извличане на фокусна таблица, семантична вербализация и адаптивно превключване между текстово и символно разсъждение. Ето какво означава тази архитектура за AI агентите върху финансови леджъри като Beancount.

τ²-bench: Измерване на цената на двойния контрол при разговорните AI агенти

τ²-bench разширява бенчмаркинга на агенти до настройки с двоен контрол, където както AI, така и потребителят извикват инструменти върху споделено състояние — установявайки, че активните потребители намаляват процента на успеваемост с 18–25 процентни пункта, с преки последици за Beancount агентите, споделящи достъп за запис с хора.

GAIA Benchmark: Измерване на това, което граничните AI агенти всъщност могат да правят

GAIA оценява 466 задачи от реалния свят в три нива на трудност; граничните агенти достигнаха 74,55% в средата на 2026 г. срещу 92% за хората, а оставащата разлика в Ниво 3 съответства директно на предизвикателствата при многостепенната координация в автоматизираните работни процеси на Beancount леджъри.

WorkArena: Как се справят LLM уеб агентите с реална корпоративна интелектуална работа

WorkArena тества LLM уеб агенти върху 33 реални задачи в ServiceNow — GPT-4o постига 42,7% общо, но 0% при задачи за филтриране на списъци, разкривайки сериозна бариера между попълването на формуляри и взаимодействието със структуриран потребителски интерфейс, което пряко се отнася към предизвикателствата при автоматизацията на Beancount леджъри.

τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти

τ-bench показва, че водещи LLM модели като Claude 3.5 Sonnet падат от pass@1 стойност 0,692 до pass@4 стойност 0,462 при задачи за обслужване на клиенти в търговията на дребно — рязък спад в последователността с преки последици за всеки агент с възможност за запис, опериращ върху Beancount главна книга.

Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM

Chain-of-Table (ICLR 2024) подобрява табличните разсъждения на големите езикови модели (LLM) чрез еволюиране на самата таблица като междинно състояние — постигайки 67,31% на WikiTQ срещу 61,48% за предходни базови модели, с предимство от +10,25 пункта при таблици над 4000 токена и пряка приложимост към агенти за заявки в Beancount.

TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?

TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.