Себесъгласуваност: Изборът чрез мнозинство повишава точността на веригата от мисли
LOG-009 разгледа PAL, който прехвърля аритметиката към Python интерпретатор, така че моделът никога да не трябва да пресмята сам. Себесъгласуваността (Self-consistency) се справя с ортогонален проблем: какво ще стане, ако моделът разсъждава правилно през по-голямата част от времето, но не винаги? Отговорът се оказва статистически, а не архитектурен — и изумително ефективен.
Научният труд
„Self-Consistency Improves Chain of Thought Reasoning in Language Models“ от Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery и Denny Zhou (ICLR 2023, arXiv:2203.11171) въвежда стратегия за декодиране, която заменя единичния „алчен“ път на веригата от мисли с гласуване с мнозинство върху множество извлечени пътища. Интуицията е ясна: един труден проблем с разсъждения обикновено има един правилен отговор, но много валидни пътища до него; грешният отговор е по-вероятно да бъде достигнат чрез специфични грешки, които няма да се обединят около една и съща грешка.
Методът е директно приложим. Вземате каквато и да е подкана за верига от мисли (CoT), която вече имате, извличате N завършвания при ненулева температура, извличате крайния отговор от всяко и връщате отговора, събрал най-много гласове. Без допълнително обучение, без излишни модели, без допълнително човешко етикетиране.
Основни идеи
- Размер на извадката и температура: Трудът използва 40 пътя на разсъждение за всеки проблем при температура 0,7. Това не е магическо число, получено чрез фина настройка на хиперпараметрите — изследванията показват, че ползите достигат плато приблизително след 20–30 проби, така че 40 е консервативна стойност.
- Основни подобрения спрямо стандартния CoT: GSM8K +17,9%, SVAMP +11,0%, AQuA +12,2%, StrategyQA +6,4%, ARC-challenge +3,9% — всички те са подобрения в абсолютната точност, постигнати със същия модел и подкана.
- Резултати по модели за GSM8K: При text-davinci-002 (GPT-3) себесъгласуваността подобрява точността от 78,7% на 86,5%. При Codex — от 74,5% на 82,3%. Подобренията са постоянни при различните семейства модели.
- Без разходи за обучение: Всичко се случва по време на извода (inference). Подходът работи с всяко API тип „черна кутия“, където можете да извличате проби с температура > 0.
- Гласуване с мнозинство за извлекаеми отговори: Стъпката на агрегиране работи чисто, когато отговорите са дискретни (число, избор на буква). За генериране със свободен край трудът е по-малко конкретен относно това как да се дефинира „най-съгласуван“ — ограничение, което авторите признават.
Какво издържа проверката на времето и какво не
Емпиричните ползи са реални, възпроизведени многократно, а методът е истински полезен. Но няколко структурни слабости заслужават внимание.
Първо, цената е линейна спрямо броя на пробите. Извличането на 40 пътя при извод струва 40 пъти повече от бюджета за токени на един път. За задачи, където латентността и цената на API са от значение — като агент, обработващ стотици транзакции на вечер — това не е пренебрежимо. Последваща работа (Early-Stopping Self-Consistency, ICLR 2024) адресира това: чрез спиране веднага щом гласуването достигне праг на доверие, можете да намалите пробите с 80% за GSM8K без измерима загуба на точност. Основният труд изобщо не обсъжда цената, което е странен пропуск.
Второ, предположението за гласуване с мнозинство отпада, когато моделът греши системно. Ако моделът постоянно разч ита погрешно конкретна конверсия на валута или прилага погрешно данъчно правило във всичките 40 пътя, грешният отговор ще спечели гласуването. Себесъгласуваността усилва най-честата грешка, а не правилния отговор. Това е основната епистемологична празнина: методът увеличава прецизността в рамките на разпределението на вярванията на модела, но не прави нищо за калибрирането, когато това разпределение е центрирано върху грешен отговор.
Трето, Wang & Wang (2025, arXiv:2503.16974) изучават директно съгласуваността на LLM във финансови и счетоводни задачи в 50 независими изпълнения. Те откриват, че бинарната класификация и анализът на настроенията вече са почти перфектно възпроизводими с една проба, докато сложните задачи (прогнозиране, генериране) показват истинска променливост. Тяхното практическо откритие: агрегирането на само 3–5 изпълнения драматично подобрява съгласуваността за сложни задачи — много по-евтина версия на същата идея за себесъгласуваност.
Защо това е важно за ИИ във финансите
Операциите в Beancount леджъра, които включват многостъпкова аритметика — данъчни изчисления, база на разходите, коригирана спрямо валутните курсове, амортизационни планове, съпоставяне на фактури — са точно този вид задачи, при които единичното „алчно“ декодиране е ненадеждно, но правилният отговор е уникален и проверим. Себесъгласуваността е евтина интервенция, която трябва да бъде стандарт за всяка задача на финансов агент, при която изходът може да бъде проверен (дали балансът все още е равен?).
По-интересното следствие е архитектурно. Себесъгласуваността превръща извода в ансамбъл чрез гласуване. За безопасност при запис (write-back safety) — агент, който вписва счетоводни записвания в леджър — бих искал да поставя условие за мнозинство: записване само ако 35 от 40 пътя съвпадат. Несъгласието е сигнал, че агентът трябва да ескалира въпроса към човек, вместо да прави запис. Това е конкретен, приложим филтър за безопасност, който изисква бюджет за извод, но не и инженерна сложнос т.
Режимът на отказ поради системно пристрастие е от особено значение за данъчните и регулаторните правила, където е известно, че моделите халюцинират специфични за юрисдикцията детайли. В тези случаи PAL (LOG-009) е правилното решение: пълно прехвърляне на изчисленията. Себесъгласуваността и PAL се допълват — PAL се грижи за аритметичната коректност, докато себесъгласуваността се справя с неяснотата и надеждността на разсъжденията.
Какво да прочетете след това
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — разширява себесъгласуваността от гласуване върху пътища до търсене в пътища, което е важно, когато пространството за разсъждение е разклонено, а не паралелно.
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — решението за проблема с разходите; намалява извличането на проби с над 80% за GSM8K, като същевременно запазва точността.
- Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — разширява гласуването с мнозинство до генериране със свободен край чрез използване на LLM съдия, адресирайки празнината в агрегирането, която оригиналният труд избягва.
