Преминете към основното съдържание

CRITIC: Защо самокорекцията на LLM изисква обратна връзка от външни инструменти

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Четете CRITIC (Gou et al., ICLR 2024), докато мислите какво се случва, след като финансов агент направи грешка. Reflexion ни каза, че агентите могат да се учат от провалите през епизоди. CRITIC задава по-остър въпрос: може ли един LLM да улови и поправи собствените си грешки в рамките на едно генериране — и ако да, какво му е необходимо всъщност, за да направи това?

Докладът

2026-04-26-critic-llm-self-correct-tool-interactive-critiquing

CRITIC въвежда рамка, в която езиковият модел генерира първоначален резултат, след което преминава през цикъл „проверка-след това-корекция“, използвайки външни инструменти — API за търсене за фактологични твърдения, интерпретатор на Python за код и аритметика и класификатор на токсичност за модерация на съдържанието. Цикълът се изпълнява за фиксиран брой итерации (докладът отчита ефективни резултати при около три корекции), произвеждайки прецизиран резултат, който авторите оценяват чрез въпроси с отворен отговор (TriviaQA, AmbigNQ, HotpotQA), синтез на математически програми и намаляване на токсичността.

Централното твърдение не е, че LLM могат да се самокоригират сами. То е почти обратното: стойността на CRITIC идва именно от базирането на критиката във външен сигнал, който моделът не може да фалшифицира. Без API за търсене, подобренията в QA се свиват почти до нула или се влошават. Рамката работи, защото инструментът казва на модела нещо, което той искрено не е знаел, а не защото моделът става надежден самоодитор.

Ключови идеи

  • Приложен към ChatGPT, CRITIC постига подобрения от 7,7 F1-score средно за три QA задачи с отворен домейн и 7,0 процентни пункта абсолютни печалби при три бенчмарка за математическо разсъждение.
  • Намаляването на токсичността е най-поразителният единичен резултат: 79,2% намаление на вероятността за токсичност в оценения набор от данни.
  • Премахването на API за търсене води до плато или влошаване на производителността при QA — присъщата способност на модела за самокритика е почти безполезна за фактологични задачи.
  • Цикълът се сближава бързо: три кръга на корекция улавят по-голямата част от ползата, с намаляваща възвръщаемост след това.
  • Рамката е агностична към модела и не изисква фина настройка; тя работи с API тип „черна кутия“, включително Text-Davinci-003 и ChatGPT.
  • CRITIC превъзхожда самосъгласуваността (self-consistency - гласуване с мнозинство върху множество проби) в повечето задачи, което е значимо, тъй като самосъгласуваността няма разходи за инструменти на всяка стъпка.

Какво издържа проверката — и какво не

Основният емпиричен резултат е солиден: обратната връзка от външни инструменти значително подобрява резултатите, а аблацията (премахването) на API за търсене е съкрушителна за привържениците на наивната самокорекция. Докладът е честен и за механизма — ползите идват от инструмента, а не от някакъв новопоявил се метакогнитивен капацитет.

Това, което според мен е недостатъчно изследвано, е таксономията на режимите на отказ. Кога моделът генерира лоша критика, която го отдалечава още повече от правилния отговор? Докладът отчита средна производителност, но дисперсията между задачите и видовете въпроси би била от огромно значение за практическото внедряване. Във финансов контекст най-лошият резултат не е „липса на подобрение“, а звучаща правдоподобно корекция, която вкарва нова грешка.

Изборът на ограничение до три итерации също е представен по-скоро като практическо удобство, отколкото като принципен критерий за спиране. Три кръга може да работят за TriviaQA, където има обективно верен отговор, към който да се върви. В област като равняването на счетоводни книги (ledger reconciliation), където „правилният“ отговор изисква разсъждения върху множество документи и специфични познания в областта, не е очевидно, че три повиквания на инструменти са достатъчни — или че общофункционално API за търсене изобщо предоставя правилния сигнал за верификация.

Придружаващият доклад от ICLR 2024 „Large Language Models Cannot Self-Correct Reasoning Yet“ (Huang et al., arXiv:2310.01798) потвърждава откритието на CRITIC от другата страна: без външна обратна връзка самокорекцията надеждно влошава точността на разсъжденията. Тези два доклада заедно формират кохерентна картина — капацитетът, който хората наричаха „самокорекция“, е предимно прецизиране, водено от външна обратна връзка, и разликата е важна.

Защо това е важно за AI във финансите

Цикълът на CRITIC се пренася естествено върху проблема с безопасността на обратния запис (write-back safety) в агентите на Beancount. В момента, когато LLM агент предложи запис в дневника — например категоризиране на транзакция или разделяне на разход — няма принципен начин той да провери собствения си резултат, преди да го запише на диска. Архитектурата на CRITIC предлага конкретен модел: генериране на кандидатура за запис, последвано от проверка чрез инструмент (функция за проверка на салдото, машина за правила, детектор за дубликати) и използване на резултата от инструмента за подтикване към ревизия преди окончателния запис.

Резултатът за токсичността е аналогия, която намирам за полезна: 79,2% намаление на нарушенията на правилата не идва от това, че моделът интернализира правилата, а от класификатор, който докладва нарушенията обратно на модела. За счетоводна книга на Beancount еквивалентът би бил инструмент за проверка на правила (rule-checker), който маркира двойно отчетени транзакции или нарушения на категориите и подава този сигнал в стъпката за ревизия на агента. Агентът не трябва да знае независимо, че правилата са нарушени; той се нуждае от сигнала на инструмента.

Критичното ограничение за финансите е зависимостта от API за търсене. Финансовите агенти се нуждаят от инструменти за верификация, които са специфични за домейна: проверки на интегритета на салдата по сметките, валидатори на сметкоплана, справки за данъчни правила. Едно общо уеб търсене е малко вероятно да улови неправилно класифициран разход. Изграждането на правилния инструментален слой за корекция в стил CRITIC в счетоводството е мястото, където е истинската инженерна работа — а докладът изобщо не засяга дизайна на специфични за домейна инструменти.

Какво да прочетете след това

  • „Large Language Models Cannot Self-Correct Reasoning Yet“ (Huang et al., 2023, arXiv:2310.01798) — директният емпиричен аргумент, че вътрешната самокорекция се проваля; трябва да се чете заедно с CRITIC, тъй като те триангулират същия механизъм от противоположни посоки.
  • „Tree of Thoughts: Deliberate Problem Solving with Large Language Models“ (Yao et al., NeurIPS 2023, arXiv:2305.10601) — разширява идеята за критика и корекция по един път до дърво на търсене над междинни стъпки; подходящо за многостепенно равнение, където агентът трябва да изследва и да се връща назад.
  • „ToolBench: Facilitating Large Language Models in Mastering 16000+ Real-world APIs“ (Qin et al., 2023, arXiv:2307.16789) — изследва как агентите се учат да избират и свързват повиквания на инструменти, което е предхождащият проблем, който CRITIC приема за даденост.