Самоузгодженість: вибірка за більшістю голосів підвищує точність ланцюжка думок
LOG-009 розглядав PAL, який передає арифметику інтерпретатору Python, щоб моделі ніколи не доводилося обчислювати самостійно. Самоузгодженість вирішує ортогональну проблему: що, якщо модель міркує правильно більшу частину часу, але не завжди? Відповідь виявляється статистичною, а не архітектурною — і напрочуд ефективною.
Стаття
Стаття "Self-Consistency Improves Chain of Thought Reasoning in Language Models" Сюечжі Вана, Джейсона Вея, Дейла Шурманса, Куок Ле, Еда Чі, Шарана Наранга, Ааканкші Чоудхері та Денні Чжоу (ICLR 2023, arXiv:2203.11171) представляє стратегію декодування, яка замінює єдиний жадібний шлях ланцюжка думок голосуванням більшістю за багатьма вибраними шляхами. Інтуїція проста: складна задача на міркування зазвичай має одну правильну відповідь, але багато правильних шляхів до неї; неправильна відповідь частіше досягається через специфічні помилки, які не будуть збігатися в один і той самий хибний результат.
Метод працює за принципом "підключи та працюй". Ви берете будь-який наявний у вас CoT-промпт, робите вибірку N варіантів завершення при ненульовій температурі, витягуєте фінальну відповідь з кожного і повертаєте відповідь, яка зустрічається найчастіше. Жодного донавчання, жодних додаткових моделей, жодної додаткової розмітки людьми.
Основні ідеї
- Розмір вибірки та температура: У статті використ овується 40 шляхів міркування на задачу при температурі 0,7. Це не магічне число, підібране гіперпараметрами — абляційні дослідження показують, що приріст виходить на плато приблизно після 20–30 зразків, тому 40 є консервативним значенням.
- Головні здобутки порівняно зі стандартним CoT: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — усе це абсолютні покращення точності з тією ж моделлю та промптом.
- Результати GSM8K для окремих моделей: На text-davinci-002 (GPT-3) самоузгодженість підвищує точність з 78,7% до 86,5%. На Codex — з 74,5% до 82,3%. Покращення стабільні в різних сімействах моделей.
- Відсутність витрат на навчання: Все відбувається під час виведення (inference). Підхід працює на будь-якому API типу "чорна скринька", де можна робити вибірку з температурою > 0.
- Голосування більшістю для витягуваних відповідей: Крок агрегації працює чітко, коли відповіді дискретні (число, вибір літери). Для відкритої генерації стаття менш конкретна щодо визначення "найбільш узгодженого" результату — це обмеження, яке визнають автори.
Що підтверджується, а що — ні
Емпіричні здобутки є реальними, багатократно відтвореними, а метод — дійсно корисним. Проте кілька структурних недоліків заслуговують на увагу.
По-перше, вартість лінійно залежить від кількості зразків. Вибірка 40 шляхів під час виведення коштує у 40 разів більше бюджету токенів, ніж один шлях. Для завдань, де важливі затримка та вартість API — наприклад, агент, що обробляє сотні транзакцій за ніч — це суттєво. Подальша робота (Early-Stopping Self-Consistency, ICLR 2024) вирішує це: зупиняючись, щойно голос досягає порогу впевненості, можна скоротити кількість зразків на 80% на GSM8K без помітної втрати точності. В основній статті вартість взагалі не обговорюється, що є дивним упущенням.
По-друге, припущення про голосування більшістю не спрацьовує, коли модель систематично помиляється. Якщо модель постійно неправильно трактує певну конвертацію валют або помилково застосовує податкове правило в усіх 40 шляхах, неправильна відповідь переможе в голосуванні. Самоузгодженість посилює найпоширенішу помилку, а не правильну відповідь. Це ключовий епістемологічний розрив: метод підвищує прецизійність у межах розподілу переконань моделі, але нічого не робить для калібрування, коли цей розподіл зосереджений на неправильній відповіді.
По-третє, Ван і Ван (Wang & Wang, 2025, arXiv:2503.16974) вивчають узгодженість ВММ безпосередньо у фінансових та облікових завданнях у 50 незалежних запусках. Вони виявили, що бінарна класифікація та аналіз настроїв уже майже ідеально відтворювані з одним зразком, тоді як складні завдання (прогнозування, генерація) демонструють справжню мінливість. Їхній практичний висновок: агрегування лише 3–5 запусків різко покращує узгодженість для складних завдань — це набагато дешевший варіант тієї ж ідеї самоузгодженості.