Преминете към основното съдържание
Open Source

Всичко за Open Source

4 статии
Open-source tools, frameworks, and research artifacts for financial AI

OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите

OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.

WebArena: Бенчмаркът с 812 задачи, който измерва какво всъщност могат и не могат да правят уеб агентите

GPT-4 изпълнява само 14,41% от 812-те реалистични уеб задачи на WebArena, докато хората достигат 78,24%; доминиращият режим на отказ е „фалшива неосъществимост“ — консервативен отказ от действие — с преки последици за всеки агент, опериращ с Fava или финансови уеб потребителски интерфейси.

TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?

TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.

SWE-agent: Как дизайнът на интерфейса отключва автоматизираното софтуерно инженерство

SWE-agent (NeurIPS 2024) представя интерфейси агент-компютър (ACIs) — специално проектирани слоеве между LLM и софтуерни среди — демонстрирайки подобрение от 10,7 процентни пункта спрямо директния достъп до shell и 12,47% решаване на проблеми в SWE-bench с GPT-4 Turbo. Дизайнът на интерфейса, а не възможностите на модела, е основното тясно място за автономните агенти за програмиране.