Istota a kalibrácia LLM: Prehľad toho, čo výskum v skutočnosti ukazuje
Systematický prehľad metód odhadu istoty a kalibrácie LLM – prístupy bielej skrinky cez logity, SelfCheckGPT založený na konzistencii a sémantická entropia – odhaľuje, že skóre verbalizovanej istoty z GPT-4 dosahuje len ~62,7 % AUROC, čo je tesne nad hranicou náhody, s priamymi dôsledkami pre nasadenie agentov citlivých na neistotu vo financiách a účtovníctve.
