Перейти до основного вмісту

Chain-of-Thought Prompting: компроміси між точністю та повнотою для ШІ у сфері фінансів

· 5 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Я перечитую статтю Вея та ін. 2022 року про Chain-of-Thought (arXiv:2201.11903) з конкретним питанням: попередні експерименти показали, що спонукання CoT покращило точність (precision), але зашкодило повноті (recall) у виявленні фінансових аномалій. Стаття має пояснити чому — або принаймні дати мені достатньо механістичної інтуїції для формування гіпотези.

Про статтю

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

«Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» Джейсона Вея, Сюечжи Ванга, Дейла Шурманса, Мартена Босми та їхніх колег (Google Brain) — це робота, яка зробила CoT відомим. Ідея проста: замість того, щоб просити модель одразу дати відповідь, ви показуєте їй кілька прикладів, де відповіді передує записаний хід міркувань. Потім модель створює власний ланцюжок міркувань перед тим, як дати остаточну відповідь.

У статті цей метод тестується на арифметичних (GSM8K, SVAMP, AQuA), логічних (CommonsenseQA, StrategyQA) та символьних завданнях (конкатенація літер, підкидання монети) на трьох великих мовних моделях — PaLM 540B, GPT-3 175B та LaMDA 137B — і порівнюється зі стандартним спонуканням за кількома прикладами (few-shot prompting).

Ключові ідеї

  • GSM8K (математичні текстові задачі): стандартне спонукання з PaLM 540B дає 17,9%; CoT дає 56,9%, стрибок на 39 пунктів. Це приголомшливий приріст на складному бенчмарку, і це головний результат, яким стаття заслужено відома.
  • Конкатенація літер: стандартно 7,6%, CoT 99,4%. Для чистих символьних маніпуляцій CoT по суті вирішує завдання на великому масштабі.
  • CommonsenseQA: стандартно 78,1%, CoT 79,9%. Мінімальний приріст. Завдання, що не потребують багатоступеневого висновку, не отримують значної переваги.
  • Поріг масштабу: CoT надійно допомагає лише при приблизно 100 млрд+ параметрів. Нижче ~10 млрд додавання ходу міркувань часто шкодить — модель створює «плинні, але нелогічні ланцюжки думок», які фактично вводять її в оману.
  • Прості завдання не дають переваг: У MAWPS SingleOp (однокрокова арифметика) PaLM 540B набрала 94,1% як зі стандартним, так і з CoT спонуканням. Витрати на міркування не додають цінності, коли завдання насправді не потребує багатоступеневого висновку.
  • Відсутність гарантії правильності: автори чітко вказують, що LLM може створити логічний на вигляд хід міркувань, який призведе до неправильної відповіді. Хід міркувань і відповідь генеруються спільно, і жоден з них не перевіряється незалежно.

Що підтверджується, а що ні

Емпіричні результати підтверджуються. Покращення в GSM8K відтворюються в наступних роботах, поріг масштабу збігається з результатами в інших дослідженнях, а показники символьного мислення відповідають очікуванням від механіки навчання в контексті (in-context learning). Ця стаття є справжнім науковим дослідженням.

Що я вважаю недостатньо вивченим, так це асиметрію точності/повноти (precision/recall). Вей та ін. наводять агреговані показники точності — вони не розділяють частку хибнопозитивних та хибнонегативних результатів. Але якщо подумати про те, як CoT змінює розподіл відповідей, механізм стає показовим: CoT спонукає модель генерувати та дотримуватися певного шляху міркувань. Це звуження простору генерації, ймовірно, підвищує специфічність (точність) за рахунок охоплення (повноти). Модель видає менше відповідей загалом, і ті, що вона видає, зазвичай краще обґрунтовані — але вона може пропускати правильні відповіді, які не вкладаються в чіткий покроковий наратив. Для виявлення аномалій у фінансових даних, де клас «аномалій» є рідкісним і нетиповим за визначенням, це саме той тип збою, якого варто очікувати.

Стаття також залишає відкритим механістичне питання. Автори обережні у твердженнях, що модель «насправді міркує» у повному розумінні цього слова. Чи викликає CoT справжній багатоступеневий висновок, чи це складний шлях пошуку закономірностей, який імітує такий висновок, залишається нез’ясованим. Звіт Уортона за 2025 рік, що тестував сучасні моделі міркування (o3-mini, o4-mini), виявив, що явні інструкції CoT давали лише 2–3% граничного приросту, а іноді навіть знижували «ідеальну точність», спричиняючи помилки в питаннях, на які модель в іншому випадку відповіла б правильно. Поріг масштабу в статті міг зміститися, оскільки моделі стали кращими в неявному міркуванні, але проблема варіативності, коли CoT вносить ненульовий шанс зіпсувати правильну відповідь, зберігається.

Чому це важливо для ШІ у фінансах

Три зв'язки з планом Bean Labs:

По-перше, проблема безпеки зворотного запису. Агент із CoT-спонуканням, який пояснює свої міркування перед виконанням дії в реєстрі, створює аудиторський слід — але хід міркувань не є гарантією правильності. Агент може надати правдоподібне пояснення неправильної дії. Це означає, що демонстрація користувачам ходу міркувань може створити хибну впевненість замість справжньої можливості перевірки.

По-друге, асиметрія виявлення аномалій. Якщо CoT підвищує точність, але знижує повноту у завданнях виявлення рідкісних подій, то для сценаріїв використання Beancount — пошуку неправильно класифікованих транзакцій, позначення дублікатів, виявлення порушень політики — наївне використання CoT може призвести до меншої кількості помилкових тривог ціною пропуску реальних проблем. Це може бути помилковим компромісом. Фінансовий агент, який впевнено пояснює, чому він не позначив щось підозріле, небезпечніший за того, хто позначає занадто багато.

По-третє, залежність від масштабу. Якщо виробничі фінансові агенти працюють на менших моделях заради економії або швидкості, переваги CoT зникають і можуть навіть перетворитися на недоліки. Будь-яка оцінка фінансового агента на основі CoT має проводитися на тому ж масштабі моделі, який використовується в реальній роботі.

Що прочитати далі

  • «Self-Consistency Improves Chain of Thought Reasoning in Language Models» (Wang et al., 2022, arXiv:2203.11171) — вибирає кілька шляхів CoT і приймає рішення більшістю голосів; безпосередньо вирішує проблему варіативності, про яку згадують Вей та ін.
  • «Large Language Models are Zero-Shot Reasoners» (Kojima et al., 2022, arXiv:2205.11916) — показує, що фраза «Давайте думати крок за кроком» без жодних прикладів також стимулює міркування; перевіряє межі того, що насправді потрібно для CoT.
  • «Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?» (arXiv:2508.01191) — безпосередньо атакує механістичне питання, яке оригінальна стаття залишає відкритим.