Перейти до основного вмісту
Trust

Все про Trust

8 статей
Reliability, calibration, and hallucination in financial AI systems

Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження

Систематичний огляд методів оцінки впевненості та калібрування LLM — підходів «білої скриньки» на основі логітів, SelfCheckGPT на основі узгодженості та семантичної ентропії — показує, що вербалізовані бали впевненості GPT-4 досягають лише ~62,7% AUROC, що ледь перевищує випадковість, з прямими наслідками для впровадження агентів, що враховують невизначеність, у сфері фінансів та бухгалтерського обліку.

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

ReDAct за замовчуванням запускає малу модель і переходить до дорогої лише тоді, коли перплексія на рівні токенів сигналізує про невизначеність, досягаючи 64% економії коштів порівняно з використанням лише GPT-5.2 при відповідній або вищій точності — це патерн, що безпосередньо застосовується для агентів категоризації транзакцій Beancount.

Перевірено безпечне використання інструментів для агентів LLM: STPA зустрічає MCP

Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.

AGrail: Адаптивні захисні бар'єри для LLM-агентів, що навчаються в ході виконання завдань

AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.

ShieldAgent: Верифіковане міркування щодо політики безпеки для агентів LLM

ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.

LLM ще не можуть самостійно виправляти власні міркування — висновки ICLR 2024 та наслідки для ШІ у фінансах

Хуанг та ін. (ICLR 2024) демонструють, що LLM, яких просять переглянути власні міркування без зовнішнього зворотного зв'язку, стабільно втрачають точність — показник GPT-4 падає з 95,5% до 91,5% на GSM8K — і що це означає для розробки надійних агентів для записів у журналі Beancount.

PHANTOM (NeurIPS 2025): Вимірювання виявлення галюцинацій LLM у фінансових документах

PHANTOM (NeurIPS 2025) — це перший бенчмарк для вимірювання виявлення галюцинацій LLM у реальних звітах SEC за довжини контексту до 30 000 токенів. Qwen3-30B-A3B-Thinking лідирує з F1=0.882; моделі з 7B параметрів показують результати, близькі до випадкового вгадування — це має прямі наслідки для автономних бухгалтерських агентів.