Перейти до основного вмісту

Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

LOG-009 розглядав PAL, який передає арифметику інтерпретатору Python, щоб моделі ніколи не доводилося обчислювати самостійно. Самоузгодженість вирішує ортогональну проблему: що, якщо модель міркує правильно більшу частину часу, але не завжди? Відповідь виявляється статистичною, а не архітектурною — і напрочуд ефективною.

Стаття

2026-04-24-self-consistency-chain-of-thought

Стаття "Self-Consistency Improves Chain of Thought Reasoning in Language Models" Сюечжі Вана, Джейсона Вея, Дейла Шурманса, Куок Ле, Еда Чі, Шарана Наранга, Ааканкші Чоудхері та Денні Чжоу (ICLR 2023, arXiv:2203.11171) представляє стратегію декодування, яка замінює єдиний жадібний шлях ланцюжка думок голосуванням більшістю за багатьма вибраними шляхами. Інтуїція проста: складна задача на міркування зазвичай має одну правильну відповідь, але багато правильних шляхів до неї; неправильна відповідь частіше досягається через специфічні помилки, які не будуть збігатися в один і той самий хибний результат.

Метод працює за принципом "підключи та працюй". Ви берете будь-який наявний у вас CoT-промпт, робите вибірку N варіантів завершення при ненульовій температурі, витягуєте фінальну відповідь з кожного і повертаєте відповідь, яка зустрічається найчастіше. Жодного донавчання, жодних додаткових моделей, жодної додаткової розмітки людьми.

Основні ідеї

  • Розмір вибірки та температура: У статті використовується 40 шляхів міркування на задачу при температурі 0,7. Це не магічне число, підібране гіперпараметрами — абляційні дослідження показують, що приріст виходить на плато приблизно після 20–30 зразків, тому 40 є консервативним значенням.
  • Головні здобутки порівняно зі стандартним CoT: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — усе це абсолютні покращення точності з тією ж моделлю та промптом.
  • Результати GSM8K для окремих моделей: На text-davinci-002 (GPT-3) самоузгодженість підвищує точність з 78,7% до 86,5%. На Codex — з 74,5% до 82,3%. Покращення стабільні в різних сімействах моделей.
  • Відсутність витрат на навчання: Все відбувається під час виведення (inference). Підхід працює на будь-якому API типу "чорна скринька", де можна робити вибірку з температурою > 0.
  • Голосування більшістю для витягуваних відповідей: Крок агрегації працює чітко, коли відповіді дискретні (число, вибір літери). Для відкритої генерації стаття менш конкретна щодо визначення "найбільш узгодженого" результату — це обмеження, яке визнають автори.

Що підтверджується, а що — ні

Емпіричні здобутки є реальними, багатократно відтвореними, а метод — дійсно корисним. Проте кілька структурних недоліків заслуговують на увагу.

По-перше, вартість лінійно залежить від кількості зразків. Вибірка 40 шляхів під час виведення коштує у 40 разів більше бюджету токенів, ніж один шлях. Для завдань, де важливі затримка та вартість API — наприклад, агент, що обробляє сотні транзакцій за ніч — це суттєво. Подальша робота (Early-Stopping Self-Consistency, ICLR 2024) вирішує це: зупиняючись, щойно голос досягає порогу впевненості, можна скоротити кількість зразків на 80% на GSM8K без помітної втрати точності. В основній статті вартість взагалі не обговорюється, що є дивним упущенням.

По-друге, припущення про голосування більшістю не спрацьовує, коли модель систематично помиляється. Якщо модель постійно неправильно трактує певну конвертацію валют або помилково застосовує податкове правило в усіх 40 шляхах, неправильна відповідь переможе в голосуванні. Самоузгодженість посилює найпоширенішу помилку, а не правильну відповідь. Це ключовий епістемологічний розрив: метод підвищує прецизійність у межах розподілу переконань моделі, але нічого не робить для калібрування, коли цей розподіл зосереджений на неправильній відповіді.

По-третє, Ван і Ван (Wang & Wang, 2025, arXiv:2503.16974) вивчають узгодженість ВММ безпосередньо у фінансових та облікових завданнях у 50 незалежних запусках. Вони виявили, що бінарна класифікація та аналіз настроїв уже майже ідеально відтворювані з одним зразком, тоді як складні завдання (прогнозування, генерація) демонструють справжню мінливість. Їхній практичний висновок: агрегування лише 3–5 запусків різко покращує узгодженість для складних завдань — це набагато дешевший варіант тієї ж ідеї самоузгодженості.

Чому це важливо для ШІ у фінансах

Операції в книгах Beancount, які включають багатоетапну арифметику — податкові розрахунки, вартісна основа, скоригована на валютний курс (FX), графіки амортизації, звірка рахунків-фактур — це саме ті типи завдань, де одноразове жадібне декодування є ненадійним, але правильна відповідь є унікальною та верифікованою. Самоузгодженість — це дешеве втручання, яке має бути стандартом для будь-якого завдання фінансового агента, де результат можна перевірити (чи збігається баланс?).

Більш цікавий висновок стосується архітектури. Самоузгодженість перетворює виведення на ансамбль голосування. Для безпеки зворотного запису — коли агент вносить журнальні записи до книги — я б хотів спиратися на впевненість більшості: підтверджувати запис лише якщо 35 з 40 шляхів збігаються. Розбіжність є сигналом того, що агент має передати справу людині, а не робити запис. Це конкретний, реалізований бар'єр безпеки, який витрачає бюджет на виведення, але не ускладнює інженерію.

Режим відмови через систематичну упередженість особливо важливий для податкових і регуляторних правил, де моделі схильні галюцинувати деталі щодо конкретних юрисдикцій. У таких випадках PAL (LOG-009) є правильним рішенням: повністю делегувати обчислення. Самоузгодженість і PAL доповнюють одне одного: PAL забезпечує правильність арифметики, а самоузгодженість — надійність міркувань та усунення неоднозначності.

Що читати далі

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — розширює самоузгодженість від голосування над шляхами до пошуку по шляхах, що важливо, коли простір міркувань розгалужений, а не паралельний.
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — рішення проблеми вартості; скорочує вибірку на 80%+ на GSM8K, зберігаючи точність.
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — поширює голосування більшістю на відкриту генерацію за допомогою ВММ-судді, вирішуючи проблему агрегації, яку оригінальна стаття обходить стороною.