FinToolBench съчетава 760 реални финансови API инструмента с 295 изпълними заявки за тестване на LLM агенти върху финансови задачи от реалния свят – установявайки, че консервативният процент на извикване от 22,7% на GPT-4o води до по-високо качество на отговорите (CSS 0,670) спрямо агресивния TIR от 87,1% на Qwen3-8B, докато несъответствието в намеренията надвишава 50% при всички тествани модели.
Изследователи от CMU и NC State предлагат използването на системен-теоретичен анализ на процесите (STPA) и разширен с възможности Model Context Protocol за извеждане на формални спецификации за безопасност при използването на инструменти от LLM агенти, като верификацията базирана на Alloy демонстрира липсата на небезопасни потоци в казус с планиране на календар.
FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.
AGrail (ACL 2025) въвежда кооперативен защитен механизъм с два LLM модела, който адаптира проверките за безопасност по време на извеждане чрез адаптация по време на тест (TTA), постигайки 0% успех на атаки с вмъкване на подкани и 95,6% запазване на легитимни действия в Safe-OS — в сравнение с GuardAgent и LLaMA-Guard, които блокират до 49,2% от легитимните действия.
ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.
AuditCopilot прилага LLM с отворен код (Mistral-8B, Gemma, Llama-3.1) за откриване на измами в корпоративни счетоводни записи, намалявайки фалшиво положителните резултати от 942 на 12 — но аблационният анализ разкрива, че LLM функционира основно като слой за синтез върху резултатите от Isolation Forest, а не като независим детектор на аномалии.
Документът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изс ледователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.