Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите
Препрочитам документа на Wei и др. от 2022 г. за Верига от мисли (Chain-of-Thought) (arXiv:2201.11903) с конкретен въпрос наум: по-ранни експерименти показаха, че подканянето чрез CoT подобрява точността (precision), но вреди на пълнотата (recall) при откриване на финансови аномалии. Документът трябва да обясни защо — или поне да ми даде достатъчно механистична интуиция, за да формирам хипотеза.
Документът
„Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“ от Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma и колеги (Google Brain) е трудът, който направи CoT популярен. Идеята е проста: вместо да искате от модела да премине направо към отговор, му показвате няколко примера, в които отговорът е предшестван от писмена следа от разсъждения. След това моделът генерира своя собствена следа от разсъждения, преди да отговори.
Документът тества това върху задачи за аритметика (GSM8K, SVAMP, AQuA), здрав разум (CommonsenseQA, StrategyQA) и символно разсъждение (конкатенация на букви, хвърляне на монета) в три големи езикови модела — PaLM 540B, GPT-3 175B и LaMDA 137B — и ги сравнява със стандартното подканяне с малко примери (few-shot prompting).
Ключови идеи
- GSM8K (математически текстови задачи): стандартното подканяне с PaLM 540B постига 17,9%; CoT постига 56,9%, скок от 39 пункта. Това е зашеметяващо подобрение на труден бенчмарк и е водещият резултат, с който документът е заслужено известен.
- Конкатенация на букви: стандартно 7,6%, CoT 99,4%. За чиста символна манипулация, CoT на практика решава задачата при голям мащаб.
- CommonsenseQA: стандартно 78,1%, CoT 79,9%. Минимално подобрение. Задачи, които не изискват многостъпков извод, не печелят много.
- Праг на мащаба: CoT помага надеждно само при приблизително 100B+ параметъра. Под ~10B, добавянето на следа от разсъждения често вреди — моделът произвежда „гладки, но нелогични вериги от мисли“, които активно го подвеждат.
- Лесните задачи не показват полза: При MAWPS SingleOp (едностипна аритметика), PaLM 540B отбеляза 94,1% както със стандартно, така и с CoT подканяне. Допълнителните разсъждения не добавят стойност, когато задачата всъщност не изисква многостъпков извод.
- Няма гаранция за коректност: авторите изрично посочват, че един LLM може да генерира изглеждаща последователна следа от разсъждения, която води до грешен отговор. Следата и отговорът се генерират съвместно и нито едно от тях не се проверява независимо.