Prejsť na hlavný obsah

Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Minulý týždeň som sa venoval nástroju ReDAct, ktorý smeruje rozhodnutia agenta k drahému záložnému modelu, keď neistota lacného modelu prekročí kalibrovanú hranicu. Tento článok veľa hovorí o „neistote“ – oplatí sa zastaviť a pochopiť, čo veda v skutočnosti vie o jej meraní a kalibrácii. Práca Geng a kol. „A Survey of Confidence Estimation and Calibration in Large Language Models“ (NAACL 2024) je tým správnym miestom, kde začať: systematická taxonómia toho, čo funguje, čo nie a čo ešte nikto nemeral.

O článku

2026-07-09-confidence-estimation-calibration-llms-survey

Geng, Cai, Wang, Koeppl, Nakov a Gurevych skúmajú vznikajúcu literatúru o odhade istoty a kalibrácii LLM v úlohách siahajúcich od QA s výberom odpovedí až po generovanie s otvoreným koncom a strojový preklad. Jadro problému: LLM môžu byť vysoko presné a zároveň úplne nespoľahlivé spôsobmi, ktoré je zvonku ťažké rozlíšiť. Prehľad organizuje priestor riešení do dvoch hlavných vetiev – metódy bielej skrinky (white-box), ktoré využívajú prístup k vnútorným stavom modelu, a metódy čiernej skrinky (black-box), ktoré pristupujú k modelu ako k nepriehľadnému – a v rámci každej ďalej rozlišuje medzi odhadom istoty a jej následnou (post hoc) kalibráciou.

Článok bol publikovaný na NAACL 2024 (strany 6577–6595), revidovaný v marci 2024 z novembrového podania z roku 2023 tímom z TU Darmstadt, MBZUAI a Mohamed bin Zayed University of AI.

Kľúčové myšlienky

  • Istota typu biela skrinka cez logity: Najjednoduchší prístup využíva pravdepodobnosti na úrovni tokenov alebo dĺžkovo normalizovanú log-pravdepodobnosť (log-likelihood) ako signál istoty. Tieto metódy fungujú, ale čelia základnej nejednoznačnosti: nízka pravdepodobnosť tokenu môže odrážať nízku faktickú istotu alebo jednoducho nezvyčajné formulácie – model môže byť neistý vo výbere slov, pričom si je istý podkladovým faktom.

  • Istota typu čierna skrinka založená na konzistencii (SelfCheckGPT): Manakul a kol. (EMNLP 2023) vzorkujú viacero dokončení a vyhodnocujú ich vzájomnú konzistenciu pomocou BERTScore, NLI alebo n-gramového prekrytia. Nie je potrebný prístup k logitom. Kľúčový poznatok: pri faktoch, ktoré LLM dobre pozná, sa opakované vzorky zhodujú; pri halucinovanných faktoch sa rozchádzajú.

  • Sémantická entropia: Farquhar a kol. (Nature, 2024) zoskupujú sémanticky ekvivalentné odpovede pred výpočtom entropie. LLM môže formulovať „Paríž“ a „hlavné mesto Francúzska“ odlišne – surová entropia tokenov ich považuje za divergentné, sémantická entropia nie. Toto je kvalitatívny krok vpred oproti konzistencii na úrovni tokenov, ktorý tento prehľad uvádza do kontextu.

  • Verbalizovaná istota je nepoužiteľná: Keď sú modely požiadané, aby uviedli percento istoty, skĺzavajú k nadmernej sebaistote. Empirická práca (Groot a kol., TrustNLP na ACL 2024) zisťuje, že GPT-3, GPT-3.5 a Vicuna vykazujú priemernú očakávanú chybu kalibrácie (ECE) presahujúcu 0,377 pre verbalizovanú istotu, pričom predpovede sa zhlukujú v rozsahu 90 – 100 % bez ohľadu na skutočnú presnosť. Dokonca aj GPT-4 – najlepšie kalibrovaný hodnotený model – dosahuje AUROC len ~62,7 % pri použití verbalizovanej istoty na rozlíšenie správnych od nesprávnych odpovedí, čo je len tesne nad úrovňou náhody.

  • Techniky kalibrácie sa líšia podľa úlohy: Pri klasifikácii riešia známe systematické skreslenia kontextová kalibrácia (odčítanie predpätia prioritnej triedy odhadnutého pomocou prázdnej výzvy „[N/A]“) a odstránenie pozičného skreslenia (PriDE). Pri generovaní dolaďuje modely na zoradených dokončeniach metóda Sequence Likelihood Calibration (SLiC). Škálovanie teploty (temperature scaling) – najjednoduchšia post-hoc oprava – zostáva konkurencieschopné v mnohých nastaveniach.

  • Neexistuje žiadny zjednotený benchmark: Najviac usvedčujúce štrukturálne pozorovanie prieskumu: neexistuje jediný benchmark zahŕňajúci metódy odhadu istoty naprieč úlohami a doménami. To znemožňuje prísne porovnanie metód. Odbor v súčasnosti porovnáva jablká s hruškami.

Čo obstojí – a čo nie

Taxonómia je solídna. Rozlíšenie medzi bielou a čiernou skrinkou je skutočne užitočné pre návrh systému a spracovanie metód založených na logitoch je úprimné v ich limitoch – autori priamo poznamenávajú, že pravdepodobnosť tokenu spája faktickú istotu s lexikálnou neistotou. Praktici toto spojenie často podceňujú.

V čom ma prieskum frustruje: je prevažne opisný. Neobsahuje takmer žiadne experimentálne benchmarky porovnávajúce metódy priamo medzi sebou a autori to výslovne priznávajú ako obmedzenie. Môžem odísť s jasnou mapou možností návrhu, ale bez návodu, ktorú metódu použiť pre novú úlohu.

Výsledky verbalizovanej istoty – AUROC GPT-4 ~62,7 % pri vlastnej deklarovanej istote – by mali byť kánonom pre každého, kto nasadzuje LLM do produkcie. Nie sú. Ľudia stále používajú prompty, ktoré sa pýtajú „na stupnici od 1 do 10, ako si si istý?“ a považujú odpoveď za zmysluplnú. Nie je.

Prieskum je tiež stručný v otázke kalibrácie RLHF: robí dotrénovanie pomocou ľudskej spätnej väzby modely lepšie alebo horšie kalibrovanými? Existujú dôkazy pre obe tvrdenia a prieskum sa im z veľkej časti vyhýba.

Prečo je to dôležité pre finančnú AI

ReDAct stavia svoj príbeh bezpečnosti na kalibrovanom signále neistoty z lacného modelu. Tento prieskum jasne ukazuje, aké ťažké to v skutočnosti je. Signály založené na logitoch sú dostupné v nastaveniach bielej skrinky, ale spájajú lexikálnu a faktickú neistotu. Metódy založené na konzistencii fungujú v nastaveniach čiernej skrinky, ale vyžadujú viacero vzoriek na jedno rozhodnutie – čo je drahé pre agenta pre spätný zápis do Beancountu s vysokou priepustnosťou, ktorý spracováva dávku transakčných položiek.

Najviac využiteľné zistenie pre Bean Labs: sémantická entropia zoskupuje sémanticky ekvivalentné odpovede pred hodnotením konzistencie, čo je presne to, na čom záleží pri zápisoch do účtovnej knihy, kde model môže vyjadriť rovnaký vzťah Má dať/Dal vo viacerých syntakticky odlišných formách. Agent Beancount by mal na detekciu halucinácií názvu účtu alebo sumy používať sémantické zhlukovanie nad vzorkovanými dokončeniami zápisov, nie surový rozptyl na úrovni tokenov.

Zlyhanie kalibrácie verbalizovanej istoty je priamym varovaním pre akékoľvek používateľské rozhranie, ktoré používateľovi zobrazuje „ako si je AI istá?“: nedôverujte číslu, ktoré model vyprodukuje. Namiesto toho použite externý kalibrátor alebo metódu založenú na konzistencii, alebo ho nezobrazujte vôbec.

Čo si prečítať ďalej

  • Farquhar a kol., „Detecting hallucinations in large language models using semantic entropy“, Nature, 2024 – najprísnejšia metóda, ktorá vyplýva z tohto rámca; oplatí sa prečítať celú, nielen cez zhrnutie v prieskume.
  • Manakul a kol., „SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models“, EMNLP 2023 (arXiv:2303.08896) – kánonická metóda založená na konzistencii; nevyhnutná pre pochopenie pred nasadením akéhokoľvek signálu istoty čiernej skrinky.
  • Groot a kol., „Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models“, TrustNLP na ACL 2024 (arXiv:2405.02917) – najdôkladnejší empirický audit toho, ako verbalizovaná istota zlyháva naprieč modelmi a úlohami.