Перейти до основного вмісту
Developers

Все про Developers

7 статей
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

Тонке налаштування проти RAG: Чому пошук перемагає при впровадженні нових знань у LLM

Емпіричне порівняння RAG та неконтрольованого тонкого налаштування LLM з 7 млрд параметрів показує, що RAG досягає точності 0,875+ на фактах після дати відсікання знань, тоді як тонке налаштування зупиняється на 0,504. Це має прямі наслідки для розробки агентів Beancount та будь-яких систем, що потребують частого оновлення знань.

Gorilla: як навчання з урахуванням пошуку (Retriever-Aware Training) знижує рівень галюцинацій LLM API з 78% до 11%

Gorilla (Patil та ін., NeurIPS 2024) виконує тонке налаштування моделі LLaMA 7B за допомогою навчання з урахуванням пошуку (Retriever-Aware Training) на знайденій документації API, знижуючи частоту галюцинацій з 78% до 11% порівняно з GPT-4 zero-shot — це має пряме значення для фінансових ШІ-агентів зворотного запису, де помилкові назви рахунків або переплутані знаки є критичними помилками, а не просто незручностями.

SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії

SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.

SWE-bench: Чи можуть мовні моделі вирішувати реальні проблеми GitHub?

SWE-bench оцінює мовні моделі на основі 2294 реальних проблем GitHub у 12 репозиторіях Python за допомогою тестів на основі виконання; на момент публікації Claude 2 вирішив лише 1,96% проблем за умови реалістичного пошуку, ставши бенчмарком де-факто для агентів кодування та виявивши недоліки в пошуку та довжині патчів, які мають безпосереднє значення для агентів запису Beancount.

Toolformer: Самокероване використання інструментів та його обмеження для фінансового ШІ

Детальний аналіз Toolformer (Meta AI, NeurIPS 2023): як самокероване навчання з фільтрацією за перплексією навчає модель із 6,7 млрд параметрів викликати зовнішні API, де вона перевершує GPT-3 175B в арифметичних тестах, і чому її однокрокова архітектура не підтримує ланцюжки викликів інструментів, необхідні для операцій зі структурованими реєстрами.