4 записи з тегом "Open Source"

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів

GPT-4 виконує лише 14,41% із 812 реалістичних веб-завдань WebArena, тоді як люди досягають 78,24%; основним типом помилок є хибна нездійсненність — консервативна відмова від дій, що має прямі наслідки для будь-якого агента, який працює з Fava або фінансовими веб-інтерфейсами.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

TableLlama донавчає Llama 2 (7B) на 2,6 млн прикладах табличних завдань і перевершує GPT-4 у структурних завданнях, як-от анотування типів стовпців (F1 94 проти 32), але відстає на 33 пункти у композиційному мисленні WikiTQ — каліброваному бенчмарку того, що відкриті моделі 7B можуть і чого не можуть у фінансовому ШІ сьогодні.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії

SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.

Все про Open Source

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

WebArena: бенчмарк із 812 завдань, що вимірює реальні можливості та обмеження веб-агентів

TableLlama: Чи може відкрита модель 7B зрівнятися з GPT-4 у розумінні таблиць?

SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація