Mike Thrift
Marketing Manager
SWE-agent: Як дизайн інтерфейсу розкриває можливості автоматизованої програмної інженерії
SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.
SWE-bench: Чи можуть мовні моделі вирішувати реальні проблеми GitHub?
SWE-bench оцінює мовні моделі на основі 2294 реальних проблем GitHub у 12 репозиторіях Python за допомогою тестів на основі виконання; на момент публікації Claude 2 вирішив лише 1,96% проблем за умови реалістичного пошуку, ставши бенчмарком де-факто для агентів кодування та виявивши недоліки в пошуку та довжині патчів, які мають безпосереднє значення для агентів запису Beancount.
CodeAct: Чому виконуваний код Python робить LLM-агентів на 20% точнішими
CodeAct (ICML 2024) замінює JSON-виклики інструментів виконуваним кодом Python, що підвищує рівень успіху агентів GPT-4 приблизно на 20 відсоткових пунктів у завданнях із використанням кількох інструментів і скорочує кількість ітерацій на 30% — це має пряме значення для створення надійних агентів узгодження Beancount.
LLM ще не можуть самостійно виправляти власні міркування — висновки ICLR 2024 та наслідки для ШІ у фінансах
Хуанг та ін. (ICLR 2024) демонструють, що LLM, яких просять переглянути власні міркування без зовнішнього зворотного зв'язку, стабільно втрачають точність — показник GPT-4 падає з 95,5% до 91,5% на GSM8K — і що це означає для розробки надійних агентів для записів у журналі Beancount.
Tree of Thoughts: Свідоме розв'язання проблем через пошук у LLM
Tree of Thoughts (ToT) досягає 74% у «Грі 24» проти 4% у стандартному GPT-4 CoT шляхом організації міркувань LLM у дерево пошуку з розгалуженням, відсіканням та поверненням назад — це має прямі наслідки для багатоетапної фінансової класифікації та оптимізації податків у робочих процесах Beancount.
CRITIC: Чому самокорекція LLM потребує зворотного зв’язку від зовнішніх інструментів
CRITIC (ICLR 2024) досягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.
Reflexion: мовні агенти, які вчаться на помилках без перенавчання
Reflexion (NeurIPS 2023) дозволяє LLM-агентам удосконалюватися шляхом збереження вербального аналізу помилок в епізодичному буфері — без потреби в оновленні ваг. Метод досягає 91% на HumanEval з GPT-4, але зазнає невдачі в WebShop, виявляючи структурне обмеження — вербальне підкріплення працює лише тоді, коли оцінювач видає чіткий, дієвий сигнал. Ось що це означає для створення самокоригованого агента для книги Beancount.
Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок
Самоузгодженість замінює жадібне декодування ланцюжка думок голосуванням більшістю за N вибраними шляхами міркування — підвищуючи точність GPT-3 на GSM8K на 17,9 відсоткових пунктів без донавчання — і безпосередньо застосовується до багатоетапних фінансових розрахунків, де одноразове виведення ВММ є ненадійним.
PAL: Моделі програмованої мови для надійної фінансової арифметики
PAL (моделі програмованої мови) досягає приросту точності на +38 в.п. порівняно з ланцюжком думок у завданнях з великою кількістю арифметичних операцій шляхом делегування обчислень інтерпретатору Python — архітектура, що безпосередньо застосовується для надійних запитів до книги Beancount та фінансового ШІ.
Чи можуть LLM аналізувати табличні дані? Що чотири бенчмарки кажуть про ШІ у фінансах
Чотири бенчмарки 2024–2025 років показують, що GPT-4 набирає 42% у відповідях на питання за реальними таблицями проти 86% у людей, причому складні агрегації падають до 19,6% — а власний синтаксис Beancount знаходиться в найменш продуктивній частині ієрархії серіалізації для вводу в LLM.
Конституційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта
Стаття Anthropic про Конституційний ШІ (Bai et al., 2022) навчає великі мовні моделі (LLM) дотримуватися правил за допомогою зворотного зв'язку, створеного ШІ, а не міток людської шкоди. Цей дослідницький журнал розглядає, як конвеєр RLAIF «критика-перегляд-перевага» відображається на безпеці зворотного запису для автономних агентів реєстру Beancount — і як виглядають закон Ґудгарта, помилки калібрування та ризики подвійного призначення, коли «конституцією» є план рахунків, а не набір етичних правил.
Chain-of-Thought Prompting: компроміси між точністю та повнотою для ШІ у сфері фінансів
Детальний аналіз статті Вея та ін. 2022 року про Chain-of-Thought та її значення для ШІ у фінансах — чому CoT підвищує точність, але може знизити повноту виявлення рідкісних подій, чому поріг масштабу важливий для виробничих агентів та на що варто звернути увагу фінансовим командам, які працюють з LLM.