Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: как дизайн интерфейса открывает возможности автоматизации разработки ПО

SWE-agent (NeurIPS 2024) представляет интерфейсы агент-компьютер (ACI) — специализированные уровни между LLM и программными средами. Решение показало улучшение на 10,7 процентных пункта по сравнению с прямым доступом к оболочке и 12,47% успешности на SWE-bench с GPT-4 Turbo. Дизайн интерфейса, а не возможности модели, является основным узким местом для автономных кодинг-агентов.

llm

automation

April 30, 2026·mike

SWE-bench: Могут ли языковые модели решать реальные проблемы на GitHub?

SWE-bench оценивает языковые модели на 2 294 реальных проблемах GitHub в 12 репозиториях Python с использованием тестов на основе выполнения; на момент публикации Claude 2 решил только 1,96% проблем при реалистичном поиске, став бенчмарком де-факто для кодинг-агентов и выявив ошибки поиска и длины патчей, имеющие прямое отношение к агентам записи Beancount.

llm

machine-learning

April 29, 2026·mike

CodeAct: почему исполняемый код Python делает LLM-агентов на 20% точнее

CodeAct (ICML 2024) заменяет вызов инструментов через JSON исполняемым кодом Python, повышая вероятность успеха агентов GPT-4 примерно на 20 процентных пунктов в задачах с использованием нескольких инструментов и сокращая количество итераций взаимодействия на 30% — это имеет прямое значение для создания надежных агентов сверки Beancount.

llm

automation

April 28, 2026·mike

LLM пока не могут самостоятельно исправлять свои рассуждения — выводы ICLR 2024 и последствия для ИИ в финансах

Хуанг и др. (ICLR 2024) показывают, что LLM, когда их просят пересмотреть собственные рассуждения без внешней обратной связи, стабильно теряют в точности — GPT-4 падает с 95,5% до 91,5% на GSM8K. Мы разберем, что это значит для проектирования надежных агентов для создания журнальных записей Beancount.

llm

machine-learning

April 27, 2026·mike

Tree of Thoughts: осознанное решение задач с помощью поиска через LLM

Tree of Thoughts (ToT) достигает 74% в «Игре 24» против 4% у стандартного GPT-4 CoT, организуя рассуждения LLM в ветвящееся дерево поиска с отсечением и возвратом — это имеет прямое значение для многоэтапной финансовой классификации и налоговой оптимизации в рабочих процессах Beancount.

llm

machine-learning

April 26, 2026·mike

CRITIC: Почему самокоррекция LLM требует обратной связи от внешних инструментов

CRITIC (ICLR 2024) обеспечивает прирост F1 на 7,7 в задачах QA с открытым доменом и снижение токсичности на 79,2%, основывая пересмотр ответов LLM на сигналах внешних инструментов — цикл «проверка-исправление», который напрямую соотносится с безопасностью записи данных для финансовых агентов Beancount.

llm

machine-learning

April 25, 2026·mike

Reflexion: языковые агенты, которые учатся на ошибках без переобучения

Reflexion (NeurIPS 2023) позволяет LLM-агентам совершенствоваться, сохраняя вербальный анализ ошибок в эпизодическом буфере — без необходимости обновления весов. Метод достигает 91% на HumanEval с GPT-4, но терпит неудачу в WebShop, выявляя структурное ограничение: вербальное подкрепление работает только тогда, когда оценщик выдает четкий, действенный сигнал. Вот что это значит для создания самокорректирующегося агента для учета в Beancount.

llm

machine-learning

April 24, 2026·mike

Self-Consistency: выборка по принципу большинства повышает точность цепочки рассуждений

Self-consistency заменяет жадное декодирование цепочки рассуждений голосованием большинством по N сэмплированным путям рассуждения — повышая точность GPT-3 на GSM8K на 17,9 процентных пункта без дообучения — и напрямую применяется к многоэтапным финансовым расчетам, где однократный вывод LLM ненадежен.

llm

machine-learning

April 23, 2026·mike

PAL: Программно-вспомогательные языковые модели для надежной финансовой арифметики

PAL (Program-Aided Language Models) обеспечивает прирост точности на +38 п.п. по сравнению с методом «цепочки рассуждений» в задачах с интенсивными вычислениями за счет делегирования расчетов интерпретатору Python — архитектура, напрямую применимая для надежных запросов к книгам Beancount и финансового ИИ.

llm

machine-learning

April 22, 2026·mike

Могут ли LLM рассуждать над табличными данными? Чему нас учат четыре бенчмарка для финансового ИИ

Четыре бенчмарка 2024–2025 годов показывают, что GPT-4 набирает 42% в ответах на вопросы по реальным таблицам против 86% у людей, причем точность сложных агрегаций падает до 19,6%. При этом нативный синтаксис Beancount находится в самом конце иерархии сериализации по эффективности для ввода в LLM.

llm

beancount

April 21, 2026·mike

Конституционный ИИ для бухгалтерских агентов: RLAIF, программные правила и риски Гудхарта

Статья Anthropic о конституционном ИИ (Bai et al., 2022) описывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.

machine-learning

llm

April 20, 2026·mike

Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах

Подробный разбор статьи Вея и др. (2022) о цепочке рассуждений (Chain-of-Thought) и её значение для ИИ в финансах — почему CoT повышает точность, но может снизить полноту при обнаружении редких событий, почему порог масштабируемости важен для производственных агентов и на что стоит обратить внимание финансовым командам при разработке на базе LLM.

llm

machine-learning

Показано 73–84 из 87 записей

Пред.7 / 8След.