OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.
ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.
Емпирично сравнение на RAG срещу неконтролирано фино донастройване при LLM със 7 млрд. параметри показва, че RAG постига 0,875+ точност върху факти след крайния срок на обучение, докато финото донастройване спира на 0,504 — с преки последици за проектирането на Beancount агенти и всяка система, изискваща чести актуализации на знанията.
Gorilla (Patil et al., NeurIPS 2024) фино настройва 7B LLaMA модел с обучение с отчитане на извличането (Retriever-Aware Training) върху извлечена API документация, намалявайки процента на халюцинации от 78% на 11% спрямо GPT-4 zero-shot — с преки последици за финансовите AI агенти за записване, където грешните имена на сметки или обърнатите знаци са критични грешки, а не просто неудобства.
SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерн и среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.
SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.
Подробен анализ на Toolformer (Meta AI, NeurIPS 2023): как самообучението с филтриране по перплексия учи модел с 6,7 милиарда параметри да извиква външни API, къде той превъзхожда GPT-3 със 175 милиарда параметри в аритметични бенчмаркове и защо неговата едностъпкова архитектура не може да поддържа верижните извиквания на инструменти, необходими за операции със структурирани счетоводни книги.