Преминете към основното съдържание

Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Препрочитам документа на Wei и др. от 2022 г. за Верига от мисли (Chain-of-Thought) (arXiv:2201.11903) с конкретен въпрос наум: по-ранни експерименти показаха, че подканянето чрез CoT подобрява точността (precision), но вреди на пълнотата (recall) при откриване на финансови аномалии. Документът трябва да обясни защо — или поне да ми даде достатъчно механистична интуиция, за да формирам хипотеза.

Документът

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

„Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“ от Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma и колеги (Google Brain) е трудът, който направи CoT популярен. Идеята е проста: вместо да искате от модела да премине направо към отговор, му показвате няколко примера, в които отговорът е предшестван от писмена следа от разсъждения. След това моделът генерира своя собствена следа от разсъждения, преди да отговори.

Документът тества това върху задачи за аритметика (GSM8K, SVAMP, AQuA), здрав разум (CommonsenseQA, StrategyQA) и символно разсъждение (конкатенация на букви, хвърляне на монета) в три големи езикови модела — PaLM 540B, GPT-3 175B и LaMDA 137B — и ги сравнява със стандартното подканяне с малко примери (few-shot prompting).

Ключови идеи

  • GSM8K (математически текстови задачи): стандартното подканяне с PaLM 540B постига 17,9%; CoT постига 56,9%, скок от 39 пункта. Това е зашеметяващо подобрение на труден бенчмарк и е водещият резултат, с който документът е заслужено известен.
  • Конкатенация на букви: стандартно 7,6%, CoT 99,4%. За чиста символна манипулация, CoT на практика решава задачата при голям мащаб.
  • CommonsenseQA: стандартно 78,1%, CoT 79,9%. Минимално подобрение. Задачи, които не изискват многостъпков извод, не печелят много.
  • Праг на мащаба: CoT помага надеждно само при приблизително 100B+ параметъра. Под ~10B, добавянето на следа от разсъждения често вреди — моделът произвежда „гладки, но нелогични вериги от мисли“, които активно го подвеждат.
  • Лесните задачи не показват полза: При MAWPS SingleOp (едностипна аритметика), PaLM 540B отбеляза 94,1% както със стандартно, така и с CoT подканяне. Допълнителните разсъждения не добавят стойност, когато задачата всъщност не изисква многостъпков извод.
  • Няма гаранция за коректност: авторите изрично посочват, че един LLM може да генерира изглеждаща последователна следа от разсъждения, която води до грешен отговор. Следата и отговорът се генерират съвместно и нито едно от тях не се проверява независимо.

Какво остава в сила — и какво не

Емпиричните резултати остават в сила. Подобренията в GSM8K са повторени в последващи работи, прагът на мащаба съвпада с наблюдаваното другаде, а числата при символното разсъждение са съвместими с това, което бихте очаквали от механиката на обучението в контекст. Този документ направи истинска наука.

Това, което намирам за недостатъчно изследвано, е асиметрията между точност и пълнота (precision/recall). Wei и др. показват обобщени числа за точност — те не разбиват нивата на фалшиво положителните спрямо фалшиво отрицателните резултати. Но ако се замислите как CoT променя разпределението на отговорите, механизмът е показателен: CoT подтиква модела да генерира и да се ангажира с път на разсъждение. Това стесняване на пространството за генериране вероятно увеличава специфичността (точността) за сметка на обхвата (пълнотата). Моделът генерира по-малко отговори като цяло, а тези, които генерира, са по-добре обосновани — но той може да пропусне правилни отговори, които не се вписват в спретнат поетапен разказ. За откриване на аномалии във финансови данни, където класът „аномалия“ е рядък и атипичен по дефиниция, това е точно режимът на отказ, който бихте очаквали.

Документът също така оставя механистичния въпрос отворен. Авторите внимават да не твърдят, че моделът „всъщност разсъждава“ в някакъв силен смисъл. Не е решено дали CoT извлича истински многостъпков извод или сложен пряк път за съпоставяне на модели, който имитира такъв извод. Доклад на Wharton от 2025 г., тестващ съвременни модели за разсъждение (o3-mini, o4-mini), установи, че изричните CoT инструкции дават само 2–3% маргинални подобрения, а понякога намаляват „перфектната точност“, като предизвикват грешки на въпроси, на които моделът иначе би отговорил правилно. Прагът на мащаба от документа може да се е изместил, тъй като моделите са станали по-добри в неявните разсъждения — но проблемът с вариативността, при който CoT въвежда ненулев шанс за провал на иначе правилен отговор, продължава да съществува.

Защо това е важно за ИИ във финансите

Три връзки с програмата на Bean Labs:

Първо, проблемът за безопасност при запис (write-back safety). Един CoT агент, обясняващ разсъжденията си преди да предприеме действие в счетоводната книга, предоставя одиторска следа — но следата от разсъждения не е гаранция за коректност. Агентът може да генерира изглеждащо правдоподобно обяснение за грешно действие. Това означава, че показването на следа от разсъждения на потребителите може да създаде фалшива увереност, а не истинска одитируемост.

Второ, асиметрията при откриване на аномалии. Ако CoT повишава точността, но намалява пълнотата при задачи за откриване на редки събития, тогава за случаите на употреба на Beancount — намиране на неправилно класифицирани трансакции, маркиране на дублирани записи, улавяне на нарушения на правилата — наивното използване на CoT може да доведе до по-малко фалшиви сигнали за сметка на пропускане на реални проблеми. Това потенциално е грешният компромис. Финансов агент, който уверено обяснява защо не е маркирал нещо подозрително, е по-опасен от такъв, който прекалява с маркирането.

Трето, зависимостта от мащаба. Ако производствените финансови агенти работят на по-малки модели поради разходи или съображения за латентност, ползите от CoT се изпаряват — и могат да се обърнат. Всяка оценка на базиран на CoT финансов агент трябва да се прави при същия мащаб на модела, използван в производството.

Какво да прочетете след това

  • „Self-Consistency Improves Chain of Thought Reasoning in Language Models“ (Wang et al., 2022, arXiv:2203.11171) — взема проби от множество CoT пътища и избира този с мнозинство гласове; директно адресира проблема с вариативността, посочен от Wei и др.
  • „Large Language Models are Zero-Shot Reasoners“ (Kojima et al., 2022, arXiv:2205.11916) — показва, че „Нека мислим стъпка по стъпка“ без никакви примери също извлича разсъждения; тества границите на това от какво всъщност се нуждае CoT.
  • „Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?“ (arXiv:2508.01191) — директно атакува механистичния въпрос, който оригиналният документ оставя отворен.