Перейти к контенту
Developers

Все о Developers

7 статей
Developer resources, APIs, and integration documentation for finance tools

OpenHands: открытая платформа для ИИ-агентов-разработчиков и её значение для автоматизации финансов

OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.

ShieldAgent: Верифицируемое обоснование политик безопасности для LLM-агентов

ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.

Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM

Эмпирическое сравнение RAG и неконтролируемого дообучения на моделях LLM с 7 млрд параметров показывает, что RAG достигает точности 0,875+ на фактах после даты отсечки обучения, в то время как дообучение останавливается на уровне 0,504. Это имеет прямое значение для проектирования агентов Beancount и любых систем, требующих частого обновления знаний.

Gorilla: Как обучение с учетом поиска (RAT) снижает уровень галлюцинаций LLM API с 78% до 11%

Gorilla (Patil et al., NeurIPS 2024) дообучает модель LLaMA 7B с помощью метода Retriever-Aware Training на найденной документации API, снижая уровень галлюцинаций с 78% до 11% по сравнению с GPT-4 zero-shot. Это имеет прямое значение для ИИ-агентов в сфере финансов, где неверные названия счетов или перепутанные знаки операций являются критическими ошибками.

SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО

SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.

SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?

SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.

Toolformer: самообучающееся использование инструментов и его ограничения для ИИ в сфере финансов

Подробный разбор Toolformer (Meta AI, NeurIPS 2023): как самообучение с фильтрацией по перплексии учит модель с 6,7 млрд параметров вызывать внешние API, в чем она превосходит GPT-3 со 175 млрд параметров в арифметических тестах, и почему ее одношаговая архитектура не поддерживает цепочки вызовов инструментов, необходимые для операций со структурированными бухгалтерскими книгами.