Перейти к основному содержимому
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Все авторы

SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО
·mike

SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО

SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.

ai
llm
automation
machine-learning
+4
SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?
·mike

SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?

SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.

ai
llm
machine-learning
beancount
+3
CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее
·mike

CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее

CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных пунктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.

ai
llm
automation
machine-learning
+3
LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах
·mike

LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах

Хуанг и др. (ICLR 2024) показывают, что LLM, когда их просят пересмотреть собственные рассуждения без внешней обратной связи, стабильно теряют в точности — GPT-4 падает с 95,5% до 91,5% на GSM8K. Мы разберем, что это значит для проектирования надежных агентов для создания журнальных записей Beancount.

llm
ai
machine-learning
automation
+3
Tree of Thoughts: осознанное решение задач с помощью поиска через LLM
·mike

Tree of Thoughts: осознанное решение задач с помощью поиска через LLM

Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.

ai
llm
machine-learning
automation
+2
CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов
·mike

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.

ai
llm
machine-learning
automation
+4
Reflexion: языковые агенты, которые учатся на ошибках без переобучения
·mike

Reflexion: языковые агенты, которые учатся на ошибках без переобучения

Reflexion (NeurIPS 2023) позволяет LLM-агентам совершенствоваться, сохраняя вербальный анализ ошибок в эпизодическом буфере — без необходимости обновления весов. Метод достигает 91% на HumanEval с GPT-4, но терпит неудачу в WebShop, выявляя структурное ограничение: вербальное подкрепление работает только тогда, когда оценщик выдает четкий, действенный сигнал. Вот что это значит для создания самокорректирующегося агента для учета в Beancount.

ai
llm
machine-learning
automation
+2
Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений
·mike

Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений

Self-consistency заменяет жадное декодирование цепочки рассуждений голосованием большинством по N сэмплированным путям рассуждения — повышая точность GPT-3 на GSM8K на 17,9 процентных пункта без дообучения — и напрямую применяется к многоэтапным финансовым расчетам, где однократный вывод LLM ненадежен.

ai
llm
machine-learning
automation
+3
PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики
·mike

PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики

PAL (Program-Aided Language Models) обеспечивает прирост точности на +38 п.п. по сравнению с методом «цепочки рассуждений» в задачах с интенсивными вычислениями за счет делегирования расчетов интерпретатору Python — архитектура, напрямую применимая для надежных запросов к книгам Beancount и финансового ИИ.

ai
llm
machine-learning
beancount
+3
Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ
·mike

Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ

Четыре бенчмарка 2024–2025 годов показывают, что GPT-4 набирает 42% в ответах на вопросы по реальным таблицам против 86% у людей, причем точность сложных агрегаций падает до 19,6%. При этом нативный синтаксис Beancount находится в самом конце иерархии сериализации по эффективности для ввода в LLM.

ai
llm
beancount
data-science
+3
Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта
·mike

Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта

Статья Anthropic о конституционном ИИ (Bai et al., 2022) описывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.

ai
machine-learning
llm
automation
+3
Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах
·mike

Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах

Подробный разбор статьи Вея и др. (2022) о цепочке рассуждений (Chain-of-Thought) и её значение для ИИ в финансах — почему CoT повышает точность, но может снизить полноту при обнаружении редких событий, почему порог масштабируемости важен для производственных агентов и на что стоит обратить внимание финансовым командам при разработке на базе LLM.

ai
llm
machine-learning
data-science
+3
Показано 73–84 из 87 записей