FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.
Дослідники з CMU та Університету штату Північна Кароліна пропонують використовувати системно-теоретичний аналіз процесів (STPA) та розширений протокол контексту моделі (MCP) для отримання формальних специфікацій безпеки для використання інструментів агентами LLM, а верифікація на основі Alloy демонструє відсутність небезпечних потоків у тематичному дослідженні планування календаря.
FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.
AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.
ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.
AuditCopilot застосовує LLM з відкритим вихідним кодом (Mistral-8B, Gemma, Llama-3.1) для виявлення шахрайства в корпоративних журнальних проведеннях, скорочуючи кількість хибнопозитивних результатів з 942 до 12 — але абляційне дослідження показує, що LLM функціонує переважно як шар синтезу поверх оцінок Isolation Forest, а не як незалежний детектор аномалій.
Стаття Anthropic про Конституційний ШІ (Bai et al., 2022) навчає великі мовні моделі (LLM) дотримуватися правил за допомогою зворотного зв'язку, створеного ШІ, а не міток людської шкоди. Цей дослідницький журнал розглядає, як конвеєр RLAIF «критика-перегляд-перевага» відображається на безпеці зворотного запису для автономних агентів реєстру Beancount — і як виглядають закон Ґудгарта, помилки калібрування та ризики подвійного призначення, коли «конституцією» є план рахунків, а не набір етичних правил.