Преминете към основното съдържание
Developers

Всичко за Developers

7 статии
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите

OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.

ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти

ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.

Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM

Емпирично сравнение на RAG срещу неконтролирано фино донастройване при LLM със 7 млрд. параметри показва, че RAG постига 0,875+ точност върху факти след крайния срок на обучение, докато финото донастройване спира на 0,504 — с преки последици за проектирането на Beancount агенти и всяка система, изискваща чести актуализации на знанията.

Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%

Gorilla (Patil et al., NeurIPS 2024) фино настройва 7B LLaMA модел с обучение с отчитане на извличането (Retriever-Aware Training) върху извлечена API документация, намалявайки процента на халюцинации от 78% на 11% спрямо GPT-4 zero-shot — с преки последици за финансовите AI агенти за записване, където грешните имена на сметки или обърнатите знаци са критични грешки, а не просто неудобства.

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.

SWE-bench: Могат ли езиковите модели да разрешават реални проблеми в GitHub?

SWE-bench оценява езиковите модели върху 2294 реални проблема в GitHub в 12 хранилища на Python чрез тестове, базирани на изпълнение; при публикуването Claude 2 разреши едва 1,96% от проблемите с реалистично извличане, установявайки фактическия бенчмарк за агенти за програмиране и разкривайки режими на отказ при извличане и дължина на корекциите, пряко свързани с Beancount агентите за запис.

Toolformer: Самообучено използване на инструменти и неговите ограничения за финансовия ИИ

Подробен анализ на Toolformer (Meta AI, NeurIPS 2023): как самообучението с филтриране по перплексия учи модел с 6,7 милиарда параметри да извиква външни API, къде той превъзхожда GPT-3 със 175 милиарда параметри в аритметични бенчмаркове и защо неговата едностъпкова архитектура не може да поддържа верижните извиквания на инструменти, необходими за операции със структурирани счетоводни книги.