Перейти к контенту
Open Source

Все о Open Source

4 статей
Open-source tools, frameworks, and research artifacts for financial AI

OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов

OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.

WebArena: бенчмарк из 812 задач, измеряющий реальные возможности и ограничения веб-агентов

GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консервативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.

TableLlama: Может ли открытая модель 7B сравниться с GPT-4 в понимании таблиц?

TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.

SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО

SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.