ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.
OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.
Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.
TableMaster е конвейер, базиран само на промптване, който достига 78,13% на WikiTQ с GPT-4o-mini — с 13 пункта над Chain-of-Table — чрез комбиниране на извличане на фокусн а таблица, семантична вербализация и адаптивно превключване между текстово и символно разсъждение. Ето какво означава тази архитектура за AI агентите върху финансови леджъри като Beancount.
τ²-bench разширява бенчмаркинга на агенти до настройки с двоен контрол, където както AI, така и потребителят извикват инструменти върху споделено състояние — установявайки, че активните потребители намаляват процента на успеваемост с 18–25 процентни пункта, с преки последици за Beancount агентите, споделящи достъп за запис с хора.
GAIA оценява 466 задачи от реалния свят в три нива на трудност; граничните агенти достигнаха 74,55% в средата на 2026 г. срещу 92% за хората, а оставащата разлика в Ниво 3 съответства директно на предизвикателствата при многостепенната координация в автоматизираните работни процеси на Beancount леджъри.
WorkArena тества LLM уеб агенти върху 33 реални задачи в ServiceNow — GPT-4o постига 42,7% общо, но 0% при задачи за филтриране на списъци, разкривайки сериозна бариера между попълването на формуляри и взаимодействието със структуриран потребителски интерфейс, което пряко се отнася към предизвикателствата при автоматизацията на Beancount леджъри.
τ-bench показва, че водещи LLM модели като Claude 3.5 Sonnet падат от pass@1 стойност 0,692 до pass@4 стойност 0,462 при задачи за обслужване на клиенти в търговията на дребно — рязък спад в последователността с преки последици за всеки агент с възможност за запис, опериращ върху Beancount главна книга.
Chain-of-Table (ICLR 2024) подобрява табличните разсъждения на големите езикови модели (LLM) чрез еволюиране на самата таблица като междинно състояние — постигайки 67,31% на WikiTQ срещу 61,48% за предходни базови модели, с предимство от +10,25 пункта при таблици над 4000 токена и пряка приложимост към агенти за заявки в Beancount.
TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.