Цепочка рассуждений (Chain-of-Thought): компромисс между точностью и полнотой для ИИ в финансах
Я перечитываю статью Вея и др. 2022 года о цепочке рассуждений (Chain-of-Thought, CoT) (arXiv:2201.11903) с конкретным вопросом в голове: предыдущие эксперименты показали, что использование CoT-подсказок улучшает точность (precision), но снижает полноту (recall) при обнаружении финансовых аномалий. Статья должна объяснить почему — или, по крайней мере, дать достаточно механистической интуиции, чтобы сформулировать гипотезу.
Статья
«Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» (Цепочка рассуждений стимулирует логическое мышление в больших языковых моделях) Джейсона Вея, Сюэчжи Вана, Дейла Шуурманса, Мартена Босмы и их коллег из Google Brain — это работа, которая сделала CoT популярной. Идея проста: вместо того чтобы просить модель сразу перейти к ответу, вы показываете ей несколько примеров, где ответу предшествует записанный ход рассуждений. После этого модель генерирует собственную цепочку рассуждений перед тем, как дать окончательный ответ.
В статье этот метод тестируется на задачах на арифметику (GSM8K, SVAMP, AQuA), здравый смысл (CommonsenseQA, StrategyQA) и символьные рассуждения (конкатенация букв, подбрасывание монетки) на трех больших языковых моделях — PaLM 540B, GPT-3 175B и LaMDA 137B — и сравнивается со стандартным методом few-shot подсказок.
Основные идеи
- GSM8K (математические задачи): стандартные подсказки с PaLM 540B дают результат 17,9%; CoT — 56,9%, скачок на 39 пунктов. Это потрясающий прирост на сложном бенчмарке, и именно этот результат принес статье заслуженную известность.
- Конкатенация букв: стандартный метод — 7,6%, CoT — 99,4%. В задачах на чистые символьные манипуляции CoT практически полностью решает проблему на больших масштабах.
- CommonsenseQA: стандарт — 78,1%, CoT — 79,9%. Прирост минимален. Задачи, не требующие многошагового вывода, не получают особой выгоды.
- Порог масштабируемости: CoT надежно помогает только при наличии примерно 100 млрд параметров и более. При параметрах менее 10 млрд добавление цепочки рассуждений часто вредит — модель выдает «складные, но нелогичные цепочки мыслей», которые сбивают её с толку.
- На простых задачах выгоды нет: В тесте MAWPS SingleOp (арифметика в одно действие) PaLM 540B набрала 94,1% как при стандартных подсказках, так и при CoT. Затраты на рассуждения не приносят пользы, если задача не требует многошагового вывода.
- Никаких гарантий правильности: авторы прямо указывают, что LLM может выдать логично выглядящую цепочку рассуждений, которая приведет к неверному ответу. Ход мыслей и ответ генерируются совместно, и ни один из них не проверяется независимо.
Что подтверждается, а что — нет
Эмпирические результаты подтверждаются. Успехи на GSM8K были воспроизведены в последующих работах, порог масштабируемости совпал с наблюдениями в других исследованиях, а показатели символьных рассуждений соответствуют ожиданиям от механики контекстного обучения (in-context learning). Эта статья — настоящий научный труд.
Недостаточно изученной мне кажется асимметрия точности и полноты. Вей и др. приводят агрегированные показатели точности (accuracy), но не разделяют показатели ложноположительных (false positive) и ложноотрицательных (false negative) результатов. Однако, если подумать о том, как CoT меняет распределение ответов, механизм кажется очевидным: CoT побуждает модель создать и придерживаться определенного пути рассуждений. Это сужение пространства генерации, вероятно, повышает специфичность (точность) за счет охвата (полноты). Модель выдает меньше ответов в целом, и те, что она выдает, лучше обоснованы — но она может упускать правильные ответы, которые не вписываются в стройное пошаговое повествование. Для обнаружения аномалий в финансовых данных, где класс «аномалия» по определению является редким и нетипичным, это именно тот тип отказа, который следовало ожидать.
Также статья оставляет открытым вопрос механизмов работы. Авторы осторожны и не утверждают, что модель «действительно рассуждает» в строгом смысле слова. Неясно, вызывает ли CoT подлинный многошаговый вывод или же это сложный способ сопоставления шаблонов, имитирующий такой вывод. В отчете Уортона за 2025 год, где тестировались современные модели рассуждения (o3-mini, o4-mini), было обнаружено, что явные инструкции CoT давали лишь 2–3% маржинальной выгоды, а иногда снижали «абсолютную точность», провоцируя ошибки в вопросах, на которые модель иначе ответила бы правильно. Порог масштабируемости из статьи мог сместиться по мере того, как модели научились скрытым рассуждениям, но проблема вариативности — когда CoT вводит ненулевой шанс испортить верный ответ — сохраняется.
Почему это важно для ИИ в финансах
Три связи с повесткой Bean Labs:
Во-первых, проблема безопасности обратной записи (write-back safety). Агент с поддержкой CoT, объясняющий свои действия перед внесением правок в реестр, обеспечивает аудиторский след, но ход рассуждений не гарантирует правильности. Агент может выдать правдоподобное объяснение неверного действия. Это означает, что демонстрация цепочки рассуждений пользователям может создать ложное чувство уверенности вместо подлинной контролируемости.
Во-вторых, асимметрия обнаружения аномалий. Если CoT повышает точность, но снижает полноту в задачах поиска редких событий, то для кейсов Beancount — поиска неверно классифицированных транзакций, выявления дубликатов, отслеживания нарушений политик — наивное использование CoT может привести к уменьшению числа ложных тревог ценой пропуска реальных проблем. Это может быть неудачным компромиссом. Финансовый агент, который уверенно объясняет, почему он не пометил подозрительную операцию, опаснее того, который сообщает о слишком большом количестве подозрений.
В-третьих, зависимость от масштаба. Если производственные финансовые агенты работают на небольших моделях в целях экономии или снижения задержки, преимущества CoT испаряются — и могут стать отрицательными. Любая оценка финансового агента на базе CoT должна проводиться на модели того же масштаба, который будет использоваться в продакшене.
Что почитать дальше
- «Self-Consistency Improves Chain of Thought Reasoning in Language Models» (Wang et al., 2022, arXiv:2203.11171) — метод выборки нескольких путей CoT с последующим голосованием большинством; напрямую решает проблему вариативности, отмеченную Веем и др.
- «Large Language Models are Zero-Shot Reasoners» (Kojima et al., 2022, arXiv:2205.11916) — показывает, что фраза «Давай подумаем шаг за шагом» без примеров также стимулирует рассуждения; проверяет границы того, что на самом деле нужно для CoT.
- «Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?» (arXiv:2508.01191) — прямая атака на вопрос механики процесса, который оригинальная статья оставила открытым.
