Перейти до основного вмісту
Beancount.io LogoBeancount.io
SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії
·mike

SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії

SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.

ai
llm
automation
machine-learning
+4
SWE-bench: Чи можуть мовні моделі вирішувати реальні проблеми GitHub?
·mike

SWE-bench: Чи можуть мовні моделі вирішувати реальні проблеми GitHub?

SWE-bench оцінює мовні моделі на основі 2294 реальних проблем GitHub у 12 репозиторіях Python за допомогою тестів на основі виконання; на момент публікації Claude 2 вирішив лише 1,96% проблем за умови реалістичного пошуку, ставши бенчмарком де-факто для агентів кодування та виявивши недоліки в пошуку та довжині патчів, які мають безпосереднє значення для агентів запису Beancount.

ai
llm
machine-learning
beancount
+3
CodeAct: Чому виконуваний код Python робить LLM-агентів на 20% точнішими
·mike

CodeAct: Чому виконуваний код Python робить LLM-агентів на 20% точнішими

CodeAct (ICML 2024) замінює JSON-виклики інструментів виконуваним кодом Python, що підвищує рівень успіху агентів GPT-4 приблизно на 20 відсоткових пунктів у завданнях із використанням кількох інструментів і скорочує кількість ітерацій на 30% — це має пряме значення для створення надійних агентів узгодження Beancount.

ai
llm
automation
machine-learning
+3
LLM ще не можуть самостійно виправляти власні міркування — висновки ICLR 2024 та наслідки для ШІ у фінансах
·mike

LLM ще не можуть самостійно виправляти власні міркування — висновки ICLR 2024 та наслідки для ШІ у фінансах

Хуанг та ін. (ICLR 2024) демонструють, що LLM, яких просять переглянути власні міркування без зовнішнього зворотного зв'язку, стабільно втрачають точність — показник GPT-4 падає з 95,5% до 91,5% на GSM8K — і що це означає для розробки надійних агентів для записів у журналі Beancount.

llm
ai
machine-learning
automation
+3
Tree of Thoughts: Свідоме розв'язання проблем через пошук у LLM
·mike

Tree of Thoughts: Свідоме розв'язання проблем через пошук у LLM

Tree of Thoughts (ToT) досягає 74% у «Грі 24» проти 4% у стандартному GPT-4 CoT шляхом організації міркувань LLM у дерево пошуку з розгалуженням, відсіканням та поверненням назад — це має прямі наслідки для багатоетапної фінансової класифікації та оптимізації податків у робочих процесах Beancount.

ai
llm
machine-learning
automation
+2
CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів
·mike

CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів

CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.

ai
llm
machine-learning
automation
+4
Reflexion: мовні агенти, які вчаться на помилках без перенавчання
·mike

Reflexion: мовні агенти, які вчаться на помилках без перенавчання

Reflexion (NeurIPS 2023) дозволяє LLM-агентам удосконалюватися шляхом збереження вербального аналізу помилок в епізодичному буфері — без потреби в оновленні ваг. Метод досягає 91% на HumanEval з GPT-4, але зазнає невдачі в WebShop, виявляючи структурне обмеження — вербальне підкріплення працює лише тоді, коли оцінювач видає чіткий, дієвий сигнал. Ось що це означає для створення самокоригованого агента для книги Beancount.

ai
llm
machine-learning
automation
+2
Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок
·mike

Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок

Самоузгодженість замінює жадібне декодування ланцюжка думок голосуванням більшістю за N вибраними шляхами міркування — підвищуючи точність GPT-3 на GSM8K на 17,9 відсоткових пунктів без донавчання — і безпосередньо застосовується до багатоетапних фінансових розрахунків, де одноразове виведення ВММ є ненадійним.

ai
llm
machine-learning
automation
+3
PAL: Моделі програмованої мови для надійної фінансової арифметики
·mike

PAL: Моделі програмованої мови для надійної фінансової арифметики

PAL (моделі програмованої мови) досягає приросту точності на +38 в.п. порівняно з ланцюжком думок у завданнях з великою кількістю арифметичних операцій шляхом делегування обчислень інтерпретатору Python — архітектура, що безпосередньо застосовується для надійних запитів до книги Beancount та фінансового ШІ.

ai
llm
machine-learning
beancount
+3
Чи можуть LLM аналізувати табличні дані? Що чотири бенчмарки кажуть про ШІ у фінансах
·mike

Чи можуть LLM аналізувати табличні дані? Що чотири бенчмарки кажуть про ШІ у фінансах

Чотири бенчмарки 2024–2025 років показують, що GPT-4 набирає 42% у відповідях на питання за реальними таблицями проти 86% у людей, причому складні агрегації падають до 19,6% — а власний синтаксис Beancount знаходиться в найменш продуктивній частині ієрархії серіалізації для вводу в LLM.

ai
llm
beancount
data-science
+3
Конституційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта
·mike

Конституційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта

Стаття Anthropic про Конституційний ШІ (Bai et al., 2022) навчає великі мовні моделі (LLM) дотримуватися правил за допомогою зворотного зв'язку, створеного ШІ, а не міток людської шкоди. Цей дослідницький журнал розглядає, як конвеєр RLAIF «критика-перегляд-перевага» відображається на безпеці зворотного запису для автономних агентів реєстру Beancount — і як виглядають закон Ґудгарта, помилки калібрування та ризики подвійного призначення, коли «конституцією» є план рахунків, а не набір етичних правил.

ai
machine-learning
llm
automation
+3
Chain-of-Thought Prompting: компроміси між точністю та повнотою для ШІ у сфері фінансів
·mike

Chain-of-Thought Prompting: компроміси між точністю та повнотою для ШІ у сфері фінансів

Детальний аналіз статті Вея та ін. 2022 року про Chain-of-Thought та її значення для ШІ у фінансах — чому CoT підвищує точність, але може знизити повноту виявлення рідкісних подій, чому поріг масштабу важливий для виробничих агентів та на що варто звернути увагу фінансовим командам, які працюють з LLM.

ai
llm
machine-learning
data-science
+3
Показано 73–84 з 87 записів